データサイエンティスト上がりのDX参謀・起業家

データサイエンティスト上がりのDX参謀・起業家のブログ。データ分析や事業について。自身はアーティスト、経営者、事業家。

2010-05-08から1日間の記事一覧

正規分布を綺麗な感じで描く

ggplot2を使って正規分布を綺麗に描いてみた。 正規分布の累積確率、たまに忘れそうになるんだよね。。。ggplot2のgeomリストはこちらです。http://had.co.nz/ggplot2/参考になる本はこちら(前にも紹介したけど)。ggplot2: Elegant Graphics for Data Anal…

ヒートマップ→クラスタリング→PRAT

ヒートマップは変数や観測値の関係を同時に可視化できる優れた方法。クラスタリングをして距離の近い(関連の強い)変数、観測値を並べ替えてくれるので直感的に把握しやすい。ヒートマップでデータを観たあと、クラスタリング・予測に繋いでいくこともでき…

PART (recursive partitioning and regression trees、再帰分割回帰木)

PARTは決定木の代表的な方法。閾値を決めて直線で分けていくので予測性能はSVM等の機械学習よりは良くないが、結果を解釈しやすいのが利点。機械学習を全体的に勉強したい場合はHastieの本がお勧め。The Elements of Statistical Learning: Data Mining, Inf…