実際の完全データセット二種類に対して欠測率を変えながらMCARを人工的に生じさせ、各種補完方法の代入エラー率、予測性能(誤分類率)を評価
Waljee, A. K. et al. Comparison of imputation methods for missing laboratory data in medicine. BMJ Open 3, e002847 (2013).
https://bmjopen.bmj.com/content/3/8/e002847
<方法>
実際のRetrospective study dataを用いて、MCARを人工的に発生させ、補完データと元データ(非欠測データ)による予後予測モデルの結果を比較。
の各条件の組み合わせで代入エラー率、誤分類率を評価
補完方法として、
missForest, mean imputation, nearest neighbour imputation, MICEの4つを比較。
- MICE (多重代入法)
欠測部分を補完した補完済みデータセットを複数(20とか)作成し、それぞれで必要な統計解析を行い、最後に一つの推定値に統合するやり方。 - missForest
ランダムフォレストによる欠測値補完の方法。*1- 欠測値を初期値で補完
- 非欠測データについてランダムフォレストで学習
- 学習したランダムフォレストで欠測データを予測し、補完
- 補完後データについて、元データと新データの乖離度合いを正規的に評価
- ある基準γを満たすまで上記のプロセスを繰り返し、γを満たしたら補完終了
詳細は以下の論文(Stekhoven, 2012)のアルゴリズムを参照
- mean imputation
該当の項目の平均値を欠測部分に代入する方法 - nearest neighbour imputation
欠測値近傍のデータを利用して欠測部分を補完する方法
<結果>
- missForestが代入エラー率も誤分類率も最も低く、次点でMICEという結果
- 代入エラー率は欠測割合が増えても、missForestはあまり増加しなかったが、MICE含めた他の三つの手法では欠測割合の増加に比例して代入エラー率も増加
- 誤分類率は4つの手法全てにおいて、欠測割合の増加に伴い同じ程度の割合で増加した
<感想>
今回はMCARに絞って欠測補完の性能を比べているが、MCARは現実的には非常に稀な欠測であるため、MARでの補完性能がどれくらいなのかを知りたいところ。
実務的な欠測補完の扱いを考えてみると、MICEは補完後データを多数作成し、その後必要な統計解析を各々に実施した後に統合する過程があるが、この解析と統合のデータハンドリングが結構面倒。既存のパッケージを使えないために自作関数を作ったりと工夫が必要なところがネックだった。
一方のMissForestは補完データを一つに絞る事ができるので、データハンドリングの観点ではMICEよりも格段に扱いやすい、という利点があるらしい。
確かにMICEは補完データを作るところまでは楽だが、その後の解析→統合は癖があり、使えるパッケージに制約があるためにやりたかった解析を諦めたこともある。
その点missForestはデータハンドリングがしやすそうなので、次に欠測補完するときは是非試してみたい。
*1:正直決定木やランダムフォレストあんまりわかっていないのであっているか不安。宿題とします。