アイアナブログ 〜統計学・機械学習・AI〜

データコンサル会社アイアナのブログ。統計学、Rを使ったデータ分析、Pythonを使ったAIなど

データマイニングに関する8つの誤解

「意思決定のためのデータマイニング」という以下の本から、データマイニングに関する8つの誤解についての抜粋です。

Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)

Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)

よく質問されることも含まれてます。”誤解”なので、そうではないですよ、ということがタイトルになってます。



1. 事前の知識は必要ない⇒事前知識は必要

データマイニングする際には分析対象のデータに関する事前知識は必要です。特に変数が表す意味や、どういう経緯でデータが入手されているかなど、業務知識は重要です。


2. 専門的なスタッフは必要ない⇒専門スタッフが必要

分析の専門家だけでなく、データに関する当該業務の専門家も必要です。例えば、経済的なリスクを評価する分析を行うときには、リスクを何に設定するのか、専門家が決定しなくてはなりません。


3. 統計学者は必要ない⇒統計家が必要

データマイニングで一番時間がかかるのはデータプロセシングです。変数の信頼性や相関のチェックなどは統計家が行うべきですし、他にも確認することがたくさんあります。欠測、過適合、多重共線性、アルゴリズムのパラメータ、変数の型など。ソフトのボタンを押すだけでは良い分析はできません。


4. データマイニングは思いもよらないことを発見する⇒(特に分析し始めは)当たり前の事が発見されることが多い

データマイニングで利用される変数は、(業務の)専門家に決めれられたものであることが多いです。そのためデータマイニングによって生成されたモデルは、思いもよらない、ということは少ないです。データマイニングでできることは、数千の変数の組み合わせから最も良い組み合わせを抜き出したり、それによってターゲティングルールを少し変更することで反応率が良くなる事もあります。


5. データマイニングは全く新しい技術⇒昔ながらの技術も多い

データマイニングは古典的な分析も含みます。これまでの分析と違うのは、データサイズが大きい、性能が少し落ちても解釈しやすいモデルを使うなどの点ですが、データマイニングが全く新しいわけではありません。


6. 手に入る全てのデータを利用しなくてはならない⇒データを絞ることも重要

データマイニングの結果は、変数が沢山あるほど改善すると思うかもしれないが、そう言う訳ではない。良いモデルができたとき、さらに改善させようとして変数を加えると、モデルの質や頑健性が悪くなることもあります。


7. いつもサンプリングしなくてはならない⇒全数データを使うこともある

サンプリングするときは、元の集団のことを良く知っておかなくてはなりません。顧客特性が良く変わる分野ではサンプリングは控えるべきです。サンプリングデータの分布は、もとのデータの分布と一致している必要があるので、サンプリングによって稀なデータ(稀な現象や小さいセグメントの顧客)が無くなってはいけません。


8. 絶対にサンプリングしてはいけない⇒サンプリングすることもある

予測モデルを作るとき、学習と検証のためにサンプリングが必要です。またデータが大きいときに、サンプリングすることで早くモデルを作ることができます。サンプリングデータで深い計算をすることで、良いモデルができることもあります。



データマイニングのことを過度に期待せず、正しく効果的に利用しましょう、ということですね。”ビッグデータ”にも同じ事が言えるかと思います。