<論文感想>欠測データに対する4つの補完アルゴリズムの性能を比較した研究

実際の完全データセット二種類に対して欠測率を変えながらMCARを人工的に生じさせ、各種補完方法の代入エラー率、予測性能(誤分類率)を評価

Waljee, A. K. et al. Comparison of imputation methods for missing laboratory data in medicine. BMJ Open 3, e002847 (2013).

実際のRetrospective study dataを用いて、MCARを人工的に発生させ、補完データと元データ（非欠測データ）による予後予測モデルの結果を比較。

の各条件の組み合わせで代入エラー率、誤分類率を評価

補完方法として、

missForest, mean imputation, nearest neighbour imputation, MICEの４つを比較。

今回はMCARに絞って欠測補完の性能を比べているが、MCARは現実的には非常に稀な欠測であるため、MARでの補完性能がどれくらいなのかを知りたいところ。

実務的な欠測補完の扱いを考えてみると、MICEは補完後データを多数作成し、その後必要な統計解析を各々に実施した後に統合する過程があるが、この解析と統合のデータハンドリングが結構面倒。既存のパッケージを使えないために自作関数を作ったりと工夫が必要なところがネックだった。

一方のMissForestは補完データを一つに絞る事ができるので、データハンドリングの観点ではMICEよりも格段に扱いやすい、という利点があるらしい。

確かにMICEは補完データを作るところまでは楽だが、その後の解析→統合は癖があり、使えるパッケージに制約があるためにやりたかった解析を諦めたこともある。

その点missForestはデータハンドリングがしやすそうなので、次に欠測補完するときは是非試してみたい。

*1:正直決定木やランダムフォレストあんまりわかっていないのであっているか不安。宿題とします。

備忘録 as vet.