isseiの解析日記

アイアナ代表・isseiの解析日記。統計学、Rを使ったデータ分析やAIなど

因果推論のススメ

2012年3月12日、計算機科学分野の権威ある賞、チューリング賞wikiはこちら)をJudea Pearl先生が受賞されました(米記事はこちら日本記事はこちら)。Pearl先生は「因果推論」分野の権威です。因果推論はベイジアンネットワークや構造方程式モデリングSEM、パス解析)などの基本理論になります。チューリング賞が出たこともあって因果推論が注目されそうですが、難易度が高い分野でもあります。そこで、私が読んで理解が進んだ本を紹介致します。

まずは、このエッセイ本を読むと「因果関係とは何か?」「効果とは何か?」といった事をとてもイメージしやすくなります。これは医療統計分野の本なので、「ランダム化試験」という用語で因果関係を説明していますが、web業界の方はA/Bテストと言った方が分かりやすいかもしれません。A/Bテストをすることでレイアウトの良し悪しが判明するのも、基礎には因果推論の考え方があります。

宇宙怪人しまりす医療統計を学ぶ (岩波科学ライブラリー (114))

宇宙怪人しまりす医療統計を学ぶ (岩波科学ライブラリー (114))


次に、理論的な内容のこれらの本があります。1つ目の星野先生の本は疫学や公衆衛生学寄りで、Rubin先生やModern Epidemiologyの説明に近いと思います。2つ目の宮川先生の本はグラフ理論やDAG(非循環有向グラフ)に基づいていて、Pearl先生の説明に近いです。傾向スコアや操作変数に関する解説があります。

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)


上記の本で因果推論が分かってくると、Pearl先生の教科書が読みやすくなります。次のように、日本語訳もあります。ベイジアンネットワーク、SEMなどの説明があります。

統計的因果推論 -モデル・推論・推測-

統計的因果推論 -モデル・推論・推測-



また、DAGには3つ重要な基準があります(DAGであれば必ずこれらを満たすわけではないのでご注意下さい)。この特性は慣れないと理解が難しいので、自分の理解をメモしておきます(正確な定義は教科書をご覧下さい)。表現に間違いがあれば、後ほど修正致します。


1. 有向分離基準(d-separate)

有向分離基準を満たせば、集合Sによってaとbは独立となる。aとbの間の道上で、すべての合流点(collider)で条件付けると擬似相関が生まれる。また、aとbの共通因子や中間因子で条件付けると独立になる。


2. バックドア基準

バックドア基準を満たすSが存在すれば、xのyへの介入効果はSによって表現可能となる。このとき、xのyへの介入効果は識別可能という。このようなSの条件は、xがSの原因因子になっておらず、かつ、xからの矢線をとりのぞいたときにSがxとyを有効分離することである。


3. フロントドア基準

Sがフロントドア基準を満たせば、Sによってxのyへの介入効果は表現可能である。このときの条件は、Sの要素でxyの道を全てブロックしている、xからSへのバックドアパスは空集合でブロックされる、Sからyへのバックドアパスをxがブロックしている、の3つを満たすことである。未測定の交絡因子があるときの対処法の1つである「媒介変数法」を拡張したアイディアになっている。他の対処法としては、操作変数法や条件付き操作変数法がある。


また、過去にPearl先生の訳本を読みながら資料に起こしたものがありますので、紹介しておきます。