データマイニングに関する8つの誤解
「意思決定のためのデータマイニング」という以下の本から、データマイニングに関する8つの誤解についての抜粋です。
Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)
- 作者: Stéphane Tufféry
- 出版社/メーカー: Wiley
- 発売日: 2011/04/18
- メディア: ハードカバー
- 購入: 15人 クリック: 478回
- この商品を含むブログ (2件) を見る
よく質問されることも含まれてます。”誤解”なので、そうではないですよ、ということがタイトルになってます。
1. 事前の知識は必要ない⇒事前知識は必要
データマイニングする際には分析対象のデータに関する事前知識は必要です。特に変数が表す意味や、どういう経緯でデータが入手されているかなど、業務知識は重要です。
2. 専門的なスタッフは必要ない⇒専門スタッフが必要
分析の専門家だけでなく、データに関する当該業務の専門家も必要です。例えば、経済的なリスクを評価する分析を行うときには、リスクを何に設定するのか、専門家が決定しなくてはなりません。
3. 統計学者は必要ない⇒統計家が必要
データマイニングで一番時間がかかるのはデータプロセシングです。変数の信頼性や相関のチェックなどは統計家が行うべきですし、他にも確認することがたくさんあります。欠測、過適合、多重共線性、アルゴリズムのパラメータ、変数の型など。ソフトのボタンを押すだけでは良い分析はできません。
4. データマイニングは思いもよらないことを発見する⇒(特に分析し始めは)当たり前の事が発見されることが多い
データマイニングで利用される変数は、(業務の)専門家に決めれられたものであることが多いです。そのためデータマイニングによって生成されたモデルは、思いもよらない、ということは少ないです。データマイニングでできることは、数千の変数の組み合わせから最も良い組み合わせを抜き出したり、それによってターゲティングルールを少し変更することで反応率が良くなる事もあります。
5. データマイニングは全く新しい技術⇒昔ながらの技術も多い
データマイニングは古典的な分析も含みます。これまでの分析と違うのは、データサイズが大きい、性能が少し落ちても解釈しやすいモデルを使うなどの点ですが、データマイニングが全く新しいわけではありません。
6. 手に入る全てのデータを利用しなくてはならない⇒データを絞ることも重要
データマイニングの結果は、変数が沢山あるほど改善すると思うかもしれないが、そう言う訳ではない。良いモデルができたとき、さらに改善させようとして変数を加えると、モデルの質や頑健性が悪くなることもあります。
7. いつもサンプリングしなくてはならない⇒全数データを使うこともある
サンプリングするときは、元の集団のことを良く知っておかなくてはなりません。顧客特性が良く変わる分野ではサンプリングは控えるべきです。サンプリングデータの分布は、もとのデータの分布と一致している必要があるので、サンプリングによって稀なデータ(稀な現象や小さいセグメントの顧客)が無くなってはいけません。
8. 絶対にサンプリングしてはいけない⇒サンプリングすることもある
予測モデルを作るとき、学習と検証のためにサンプリングが必要です。またデータが大きいときに、サンプリングすることで早くモデルを作ることができます。サンプリングデータで深い計算をすることで、良いモデルができることもあります。
データマイニングのことを過度に期待せず、正しく効果的に利用しましょう、ということですね。”ビッグデータ”にも同じ事が言えるかと思います。