2010-05-08から1日間の記事一覧
ggplot2を使って正規分布を綺麗に描いてみた。 正規分布の累積確率、たまに忘れそうになるんだよね。。。ggplot2のgeomリストはこちらです。http://had.co.nz/ggplot2/参考になる本はこちら(前にも紹介したけど)。ggplot2: Elegant Graphics for Data Anal…
ヒートマップは変数や観測値の関係を同時に可視化できる優れた方法。クラスタリングをして距離の近い(関連の強い)変数、観測値を並べ替えてくれるので直感的に把握しやすい。ヒートマップでデータを観たあと、クラスタリング・予測に繋いでいくこともでき…
PARTは決定木の代表的な方法。閾値を決めて直線で分けていくので予測性能はSVM等の機械学習よりは良くないが、結果を解釈しやすいのが利点。機械学習を全体的に勉強したい場合はHastieの本がお勧め。The Elements of Statistical Learning: Data Mining, Inf…