データサイエンティスト上がりのDX参謀・起業家

データサイエンティスト上がりのDX参謀・起業家のブログ。データ分析や事業について。自身はアーティスト、経営者、事業家。

一般化線形モデルについて

教科書:統計モデル入門 〜回帰モデルから一般化線形モデルまで〜

一般化線形モデル入門 原著第2版

一般化線形モデル入門 原著第2版

論文:Nelder and Wedderburn (1972)…一般化線形モデル、McCullagh and Nelder (1989)…擬似対数尤度



今日は一般化線形モデルについてまとめておきます。



【導入】

  • 一般化線形モデルはGLIM(ぐりむ)
  • 一般線形モデルはGLM(じーえるえむ)
  • 一般化推定方程式はGEE(じーいーいー)
  • 結果変数(outcome)…予測したい変数
    • 別名:応答変数(response)、従属変数(dependent)→「結果変数」と脳内変換
  • 説明変数(exploratory)…結果変数を説明する変数
    • 別名:予測変数(predictor)、独立変数(independent)→「説明変数」と脳内変換

『統計モデル入門』P4

線形重回帰と共分散分析・分散分析の区別は人為的なものである。これらの方法は密接に関係しているので、最近(1990年)はそれらすべての問題に対して同じ計算ツールが使われるのが普通である。重回帰とか一般線形モデル(GLM)という用語は、1つの連続的な結果変数と複数個の説明変数の関係を分析する種種の方法を包括して用いられる。」


要するに、線形重回帰・分散分析・共分散分析・GLMは同じですよ、ということ。


例えば、R→glm()関数、SAS→proc genmodという同じツールで全てできます。

分散分析や線形モデルを一緒に勉強すると混乱するのでGLMとしてまとめて学んだ方が良いのではないかと思います。




これから一般化線形モデルの話に入りますが、まず一番大事なこと。


GLIMは「指数型分布族の線形モデル」です。




【モデルの形】

イメージ:h(結果変数) = 説明変数の線形和 + 誤差

「結果変数をリンク関数hで変数変換したものが、説明変数の線形和+誤差になっている」



1. 誤差分布
結果変数の誤差がどのような分布に従っているか?

どれも指数型関数族(exponential family)の分布であるので、モデルを統一的に表現できる。


2. リンク関数
説明変数の線形和が結果変数の期待値とどのように関連しているか?

  • 重回帰…恒等変換(変換しない、identical link)
  • 2値…ロジット変換、プロビット変換(逆累積正規変換)、補対数対数変換(complementary log-log function)
  • ポアソン回帰…対数変換

p:対数変換→log(p)、ロジット変換→log{p/(1-p)}


3. 分散関数
2項分布やポアソン分布は分散が期待値の関数になっている→分散の推定に関して制約がかかり過ぎる(overdispersionという現象)。
それを解消するために、「擬似尤度」という概念を取り入れてoverdispersionパラメータをデータから推定する(擬似尤度を使わない推定だと1に固定されている)。
例)R:glm(family = quasipoisson)


誤差分布とリンク関数は基本的に1対1に対応してるけど、考え方(哲学)が違う。

  • 誤差分布:結果変数の分布を考えている
  • リンク関数:結果変数がなるべく-∞から+∞の中で広い範囲を取るように変数変換する

【推定方法】
最尤法…尤度関数が最大になるパラメータを求める
(尤度関数:観測値の同時分布的なもの。確率関数をパラメータの関数と考える。2項分布の例→計算ツールとしての理解)

繰り返し計算によって最尤値を計算する

  1. ニュートン・ラフソン法
  2. スコア法(繰り返し重み付き最小2乗法、iterative weighted least squares)
    • スコア関数:対数尤度関数のパラメータに関する1階微分
    • (参考)スコア関数の共分散行列…フィッシャー情報行列


参考:一般化推定方程式(GEE)、Liang and Zeger (1986)、一般化推定方程式
時系列データをモデル化する際、混合効果モデルを仮定すると適切な尤度関数が存在しなくなる。そのため「擬似尤度近接法」の概念を導入し、「一般化推定方程式」という方法で推定を行う。
『Rによる統計解析ハンドブック』p245

「一般化線形モデルを非正規結果変数である経時データに適用する際の問題は、リンク関数・誤差分布・相関構造の適切な組み合わせをもつ適当な尤度関数が通常は存在しないことである。」

【当てはまりの評価】

  • 対数尤度比統計量(D)

観測値と予測値の乖離の度合いを計算する(χ二乗分布)、小さい方が良い。リンク関数によって形が変わる。

観測値と予測値の散布図を描き、R二乗や相関係数を計算する。一致している方が良い。



【ロジスティック回帰での具体例】

  • 2項分布の確率関数

nCy π^y (1-π)^(n-y)
を、指数型分布族の正準型(canonical form)に書き直すと次のようになる。
exp(ylogπ – ylog(1-π) + nlog(1-π) + log nCy)

  • ロジスティック回帰モデル:logit(πi) = βxを仮定すると、対数尤度は次のようになる。

対数尤度 = Σ[ylogπ – ylog(1-π) + nlog(1-π) + log nCy]
= Σ[y(βx) - nlog(1 +βx) + log nCy]
この対数尤度をスコア法(繰り返し最小2乗法)による最尤法で最大化し、パラメータβを求める。
反復:スコア関数(U)、フィッシャー情報行列(V)を使って次の反復式を解く。
V(m-1) b(m) = V(m-1) b(m-1) + U(m-1)



【まとめ】

  • 分散分析も重回帰も「一般線形モデル(GLM)」で表現できる同じモデルである。
  • GLM、ロジスティック回帰、ポアソン回帰(指数型分布族)などをまとめて「一般化線形モデル(GLIM)」と呼ぶ。
  • GLIMは誤差分布・リンク関数・分散構造の3つの部分から構成されるモデルである。
  • パラメータは尤度関数を最大化する最尤法によって推定される。
  • 当てはまりの良さは対数尤度比統計量やキャリブレーションプロットなどによって評価される。