データサイエンティスト上がりのDX参謀・起業家

データサイエンティスト上がりのDX参謀・起業家のブログ。データ分析や事業について。自身はアーティスト、経営者、事業家。

一年で身に付ける!Rと統計学・機械学習の4ステップ

久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。


ステップ1. 分布・検定

理論

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

R本

Rによるやさしい統計学

Rによるやさしい統計学


ステップ2. 尤度・回帰

理論

自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

R本

統計学:Rを用いた入門書

統計学:Rを用いた入門書


ステップ3. 多変量解析

理論

多変量解析入門――線形から非線形へ

多変量解析入門――線形から非線形へ

R本

RとS-PLUSによる多変量解析

RとS-PLUSによる多変量解析


ステップ4. 機械学習

理論(Hastie本、PDF

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics)

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics)

R本

Rによるデータサイエンス データ解析の基礎から最新手法まで

Rによるデータサイエンス データ解析の基礎から最新手法まで



本の内容的に重複もあって、完全に上記のように分けれるわけではないですが、この順で学ぶことで理解が進むかと思います。また、それぞれのステップで代役になる本は他にもあります。例えば、ステップ2の理論本は、『現代数理統計学』でも同じくらいの難度だと思います。また、PRML本では、Hastie本とは違った見方で機械学習を学べます。それぞれのステップを3ヶ月くらいでこなせれれば、一年で統計学機械学習の全体感を取得し、Rも使えるようになりますね。(最後のHastie本を3ヶ月は大変ですが笑)

実践から入りたい!!といった方は、ステップ3や4から入るのも良いと思います。もともと統計学は実データから生まれた学問なので、むしろそういうモチベーションは大事です。実際、私は「とりあえず分析して結果を見たい」派なので、R本が少なかった数年前は金先生のページの資料にある例を実行したりしていました。以前書いた「ぼくのかんがえたとうけいがくぶかりきゅらむ」も、実践を先に勉強しましょう、という趣旨で学習順序を構成しました。

この後は、「Rで学ぶデータサイエンス」シリーズで各論を学んだりすると、より高スキルが身につきます。また、ビッグデータを扱うためにHadoop+Mahoutを習得したり、切り出したデータを加工するためにRubyPythonPerlなどのスクリプト言語を勉強したり、一度DBに格納してデータ操作をするためにMySQLSQLiteなどのデータベースを扱えるようになれれば、データサイエンティストへより近づけますね。実際に、Facebookが求人しているデータサイエンティストは、以上のようなスキルを持った人です。

明後日からちょうど4月です。ぜひこの一年で、1人でも多くの人が統計学やデータ分析を取得して頂きたいものです。そしてデータ分析を社会に役立てて欲しいですね!


※なお、紹介している本や、ステップは随時変更するかもしれませんのでご了承下さい。