データサイエンティスト上がりのDX参謀・起業家

データサイエンティスト上がりのDX参謀・起業家のブログ。データ分析や事業について。自身はアーティスト、経営者、事業家。

計算上の最適とビジネス上の最適の違いについて

AI、機械学習、データサイエンスでモデルを作って分析したり予測するとき、モデルをどう作ればいいか?という問題で。


学問的には、交差検証(クロスバリデーション)をしたり、何らかの当てはまり指標を最適化してモデルを作ったりすることが望ましいとされます。


が、自分がこれまでデータをビジネス実績に結びつけてきた実感としては、そうやってつくったモデルは役に立たないことが多い。


全体的に、保守的なモデルになり、業務知見と同じような結果で、モデル使う必要ない、データでは何も見つからないね、となってしまうことが多い。業務知見を超える知見は、最適なモデルより"少し過学習気味"に設定したときに現れてるように思っています。


自分が新規のデータを分析するときは、だいたい決定木を試してみるが、わざと過学習気味の木を作る。そしてそれをビジネス側に説明しながら、実際の業務でどう活用できるかを詰めていく。


決定木の場合で言うと、枝の2〜3段目くらいまでは業務知見で説明が付く事が多い。さらに分岐させていくと、業務知見ではカバーできてなかった細かいルールになっていく。そのルールが、ほんとうに法則を表しているのか、それともたまたまの過学習なのか。それは最適化の計算結果で判断するのではなく、ビジネス側と議論してお互い一緒に考える。


最終的には、実際に使ってみないとそのルールが正しいかどうかは判断できないので、間違っているかもしれないということを念頭におきながら、試せる範囲内で実証実験をしていく。それが、最速で最大限に分析結果をビジネス成果に繋げることができる方法かなと。


データを活用して実際のビジネス収益を上げられるかどうかは、計算上の最適解よりももう少し深いところの特徴が有効なものかどうか次第かなと感じます。