logistic regression modelのsample sizeの基準は10 EPVで十分なのか、シミュレーションで評価
Smeden, M. van et al. No rationale for 1 variable per 10 events criterion for binary logistic regression analysis. BMC Méd. Res. Methodol. 16, 163 (2016).
bmcmedresmethodol.biomedcentral.com
Introduction
logistic regression modelのevent per variables (EPV) はいくつがいいのか?
EPV>10 (共変量数の10倍以上のoutcome数を確保する) がsample sizeを決める一つの指標として長年使用されてきたが、過去の3つのシミュレーション研究では10で必要十分、10だと保守的すぎる、10だとBiasが生じる、など結論は一致していない
small sample sizeでは、
最尤推定量の漸近正規性、漸近一致性が保証されないため、推定値がoverestimateされるBiasが生じる
data separation が生じるためにMLEが収束しなかったり、推定値が最尤量にならない
などの問題が生じることで、推定が不安定になる
Method
本研究では
part I: separated dataが少ない(separationの影響を極力排除した)data setを用いて、EPV、共変量数、サンプルサイズが推定に及ぼす影響のシミュレーション
part II: separated data setの有無が推定に及ぼす影響のシミュレーション
を行い、Biasの程度、90%CIの名目被覆率と実際の被覆率の違いなどを評価
Results
EPV>10をlogistic regressionのサンプルサイズ充足の指標とするのは推定精度の観点からは不十分
EPV以外にも総サンプルサイズなどが推定精度に支配的な影響を及ぼしている
Separationが生じると推定精度が低下する
Firth correctionを用いることで、low EPVやSeparationが影響するデータセットでも推定精度が向上することがわかった
Logistic regressionでのサンプルサイズを考慮するときは、EPVだけでなく他の要因も考慮することが必要