データサイエンティスト上がりのDX参謀・起業家

データサイエンティスト上がりのDX参謀・起業家のブログ。データ分析や事業について。自身はアーティスト、経営者、事業家。

おしゃれStatistics II を開催しました！

お陰様で、おしゃれStatistics IIを開催することができました！！

20人弱の方が参加して下さり、とても楽しい会となりました。

皆さんいろいろ質問して下さり、どれも本質を突くような良い質問ばかりでした。

それでは、今日出た議論を記録しておきます。

使った資料はこちらです↓

http://www.slideshare.net/isseing333/ii-8523815

エビデンスってどういう意味で使う？
- 「証拠」「信頼性」「客観性」のようなニュアンスで使っています。「真の効果」に近い結果が出る試験はエビデンスが高い、「真の効果」にバイアスが入った結果が出やすい試験はエビデンスが低いと言っています。

「名義尺度」「順序尺度」「間隔尺度」「比率尺度」って何？
- 基本的には質的変数、量的変数（連続・離散）の区分でデータ解析は対応できるので使う場面は少ないです（私は今まで必要になったことは無いです）
  - 名義尺度：カテゴリ→質的変数
  - 順序尺度：数値に順序はあるけど、間隔は一定でない→質的変数 or 離散変数
  - 間隔尺度：数値に順序があって間隔が一定→離散変数
  - 比率尺度：数値に順序があって乗除することに意味がある→連続変数
- 議論の余地がある尺度らしいですby wiki

心理学などの調査票データはどうやって解析する？
- 「1. とてもそう思う」〜「5. 全くそう思わない」みたいな調査票も、単純に離散変数と考えて分析することが多い
- 因子分析とか回帰モデルとか
- 本来はカテゴリなのに量的変数と扱うのは気持ち悪いけど、他に良い方法が無いのでは

ヒストグラムの幅はどうやって決める？
- 何か式はあるらしいけど、視覚化のツールなので「データをうまく表現できてそう」レベルで決めていいのでは？
- 解釈しやすい（区切りが意味のある）幅にする
- 狭すぎると山がいくつも出て来てしまうが、小さい山は気にしない。大きな山（傾向）を掴む
- 幅がバーによって変わっているヒストグラムもあるけど、解釈しにくいのでお勧めしません

ヒストグラムの左右は日本では「以上・未満」だけど海外は？
- 「at least 15 but less than 20 minutes」これって「より大きい・以下？」
- http://en.wikipedia.org/wiki/Histogram

ヒストグラムでチェックすべき事は？
- 分布の位置と広がり方
- 左右対称か右に歪んでいるか左に歪んでいるか
- 山の数：1峰性か2峰性か

箱ひげ図はどういう使い方をする？
- いくつかの群を並べて、中央値とばらつきを比較できる
- 箱の上下は四分位偏差なので、箱の中に50%が入っている

「交絡」の日本語的な意味は？
- 何でしょうね、、、「からみあっている？」英語では「confounding」なので「混乱させるもの」みたいな意味です
- 「真の効果をゆがめる因子」という意味です

「交絡」を調整する方法は？
- 回帰モデルに説明変数として入れて調整、偏相関係数
  - これらが一番オーソドックス
- 傾向スコア、操作変数
  - 理論的には素晴らしいが、解釈が悩ましい結果がでる事が多い
  - 信頼区間が広くなる、パラメータの正負が逆転する
- 「これさえやれば調整できます！」というものではなくて、出た結果の吟味が重要

サンプル調査の「2,000人くらい集めれば良い」説って何？
- 性別2×年代7 = 14カテゴリで、1カテゴリ150人くらいだとちょうどそれくらいの数になるけど、、特に統計学的な根拠は無いです

じゃあ「母集団の5%をサンプルしたら良い」説は？
- これも根拠あるのかな？？
- 平均値の「推論」をするのであれば、そんなに多く無くても真値を表現できます（大数の法則、中心極限定理、95%信頼区間）
  - 大体数百〜千人程度
- それよりも、ランダムサンプリングができてないために起こるバイアスの方を気を付けた方が良い
  - 例：世論調査は固定電話で行っている→明らかにランダムサンプリングできてないよね？
- ヒストグラムや基礎的な統計量は、データがあるんだったら全数使って計算しましょう

サンプルサイズ設計について
- 介入の効果を確かめたい（AB test）
- まず目的を定めて、それを達成するために必要なサンプル数を計算する
- A群とB群でどれくらいの差が見込めるか？を事前に決める
- 差が大きければ少ないサンプルで効果を証明できるし、差が小さければ多くのサンプル数が必要
- 設計されたサンプル数でランダム化試験を行う

ランダムサンプリングとランダム化は言葉は似ているけど全く違う概念
- ランダムサンプリング
  - サーベイを行うために、母集団から「ランダムに」サンプル集団を取ってくる
  - 実際はランダムにとってくる事は結構難しい
- ランダム化試験
  - ある介入効果を確かめるために、ある集団をランダムにいくつかの群に分けてそれぞれ異なる介入を行う
  - 介入後の群間差が、異なる介入の効果
  - 事前にサンプルサイズ設計を行って、リクルートする目標サンプル数を決めておく
  - 途中での脱落も見込んで多めに設計しておく
  - 「脱落するかしないか」もランダム化されるので、脱落によるバイアスはないと考える
  - 脱落やコンプライアンスを補正する手法は一応ある（因果推論）

倉橋一成

このブログについて

データコンサル会社、iAnalysis合同会社（アイアナ）代表の倉橋一成（くらはしいっせい）。東京大学医学部で医療統計学の博士号を取得して、2011年に東大病院に務めつつアイアナを設立。2013年に東大病院を退職。一部上場企業を含む約50社の企業にコンサルティング経験。統計学やデータサイエンス、AIなどを駆使して経営戦略や事業戦略に活かすためのデータ分析を行う。2021年よりクレディセゾンのCDO(Chief Data Officer)も務める。

※本ブログは所属組織の公式見解ではなく、倉橋本人の個人的な見解によるものです。

リンク

『ビジネス統計の教科書』

Tweets by iisssseeiiii

ブクマランキング

アクセスランキング

旧おとうさんの解析日記
移行時約180万PV

アクセスカウンター