関数クラスタリングのMFclust関数の内部構造 - 『企業成長の方程式 ― AIDグロースコミットによる成長戦略』

関数クラスタリングを行うMFclust関数の内部構造を調査しました（MDFAパッケージ）。

この手法は遺伝子系の論文Nucleic Acids Researchに掲載された手法です。
http://genemerge.cbcb.umd.edu/online/SSC.pdf

ある遺伝子の経時変化を関数クラスタリングで分類して、クラスタ毎に曲線を当てはめるというもの。

MFclustの内容は次のようになっています。

全個体、全時系列データに対してk-means法を当てはめる
- 時系列のパターンによってクラスタ分けされる

それぞれのクラスタに対して時間軸をxとしたSmoothing Spline ANOVA Models（スプラインANOVA）を当てはめる
- 関数ANOVA（functional ANOVA）の一種
- このとき個体（個人）を変量効果に入れる
- 次の図のようなイメージ

パラメータ推定をEMアルゴリズムで行う

最初のk-means法のクラスタ数をいくつか試し、それぞれのクラスタ数でのBICを計算する
- BICが最小のクラスタ数が最適なクラスタになる

最適なクラスタ数での、それぞれのクラスタの時系列関数が求まる

このように、今までブログで紹介してきた変量効果モデルやEMアルゴリスムなどがミックスされています。

まるでこの論文のために今まで紹介してきたような感覚にさえ陥りますorz

それはさておき、、MFclust関数は内部で他の関数を呼び出しています。

1つの関数で全てを描くとメンテが大変なので分けているのですが、それらの関数の関係を次に紹介します。

MFclust
┣MFclust.compute （minG〜maxGの間で繰り返す）
┃┃#初期値の計算
┃┣ kmeans
┃┣compute.M.all （kmeansのクラスの数だけ繰り返す）
┃┃┗compute.center
┃┃ ┗ssanova （Smoothing Spline ANOVA Models、変量効果も指定）
┃┃#初期値を使ってEMアルゴリズム
┃┗em.clust （iter.maxの数だけ繰り返す）
┃ ┃#Eステップ
┃ ┣Estep.tk
┃ ┃#Mステップ
┃ ┣compute.weight
┃ ┣compute.M.pk
┃ ┣compute.M.all （weightを指定する）
┃ ┃#BICの計算
┃ ┗em.bic
┃#BICが最小のクラスター数を選択する
┗min