isseiの解析日記

アイアナ代表・isseiの解析日記。統計学、Rを使ったデータ分析やAIなど

統計・解析ビジネスユーザー必読のデータマイニング本

久々の更新です。前々から注目していた『Data Mining and Statistics for Decision Making』が届きました。ちょっと読んだだけでも、ここ数年で一番の応用本だと感じました。単なる応用本ではなく、解析やデータマイニングがビジネスに利用されることを非常に強く意識されている内容です。


Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)

Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)


見出しを読むだけでも素晴らしいのが分かります。おしゃれStatistics勉強会で使っている『Statistics』が統計学の基礎で、このデータマイニング本が応用といったところでしょうか。特に良いなと思ったのは、様々なモデルの利点と欠点が書いてあるところ。どんなデータにも当てはまる万能なモデルはあり得ないので、手法毎にメリット・デメリットを知っておく必要があります。それがまとまっているのはとても良いですね。最後のテキストマイニングとウェブマイニングは奥が深いので、さすがにさらっとしか書いてませんが、導入には十分かなと思います。解析ソフトも、今や3大ブランドのSPSSSAS・Rの実例が多く、比較もあるのも好感を持てます。


以下、トピックを流し読みしながら行ったメモです。


【対象データ】

  • CRM (customer relationship management)
  • RFM (recency, frequency, monetary)
    • where?, when?, how?, how mach?, what?
  • SNS
  • web
    • CLF (common log format), XLF (extended log format)


【解析ソフト】


【手法】


【興味深いトピック】

  • Data analysis is a tool for extracting the jewel of truth from the slurry of data.
  • 2.11 モデルのモニタリング
  • 3.13 変数の自動選択
  • 3.14 共線性の検知
  • 4.2.2 ProfitabilityとLoyalty
  • 4.3 ビジネスセクターでのデータ(銀行、保険、電話)
  • 5.4 R, SAS, IBM SPSSの比較
    • 23ページに及ぶ比較表が圧巻!!
  • 6.1 統計手法の分類
    • 目的に応じた手法の分類表
  • 7.3 コレスポンデンス解析
  • 8.7.3 Kohonenネットワーク(SOM)
  • 9.5.1 最適のクラスター数
  • 9.8 クラスタリングの質の評価
  • 9.10.4 凝集型階層クラスタリングの利点と欠点
  • 9.11 ハイブリッドクラスタリング
  • 表9.1 様々なクラスタリング手法
  • 10 関連解析(アソシエーション分析)
  • 11.3.4 過適合、overfitting
  • 11.4.9 決定木の利点と欠点
  • 11.7.5 観測値の影響
  • 11.7.8 線形回帰での共線性の問題:Rを使った例
  • 11.7.9 共線性の診断と解決法
  • 11.7.12 ロバスト回帰
  • 11.8.15 ロジスティック回帰の利点と欠点
  • 11.11.1 ニューラルネットワークの利点と欠点
  • 11.12.3 SVMの利点と欠点
  • 11.16 クラスタリングと予測法の利用
    • モデル構築をどのような手順で行うか?
  • 12 スコアリング
    • 対象者をどのようにスコアリングするか?
  • 13.6 データマイニングにおける8つの誤解
  • 14 テキストマイニング
  • 15 ウェブマイニング