備忘録 as vet.

日々のアイデア、疑問など備忘録的に書きます。Scienceが好きです。

<論文感想>logistic regression modelにおけるsample size: 10 EPVで十分なのか?

logistic regression modelのsample sizeの基準は10 EPVで十分なのか、シミュレーションで評価

Smeden, M. van et al. No rationale for 1 variable per 10 events criterion for binary logistic regression analysis. BMC Méd. Res. Methodol. 16, 163 (2016).

bmcmedresmethodol.biomedcentral.com

Introduction

logistic regression modelのevent per variables (EPV) はいくつがいいのか?

EPV>10 (共変量数の10倍以上のoutcome数を確保する) がsample sizeを決める一つの指標として長年使用されてきたが、過去の3つのシミュレーション研究では10で必要十分、10だと保守的すぎる、10だとBiasが生じる、など結論は一致していない

small sample sizeでは、

  1. 最尤推定量の漸近正規性、漸近一致性が保証されないため、推定値がoverestimateされるBiasが生じる

  2. data separation が生じるためにMLEが収束しなかったり、推定値が最尤量にならない

などの問題が生じることで、推定が不安定になる

Method

本研究では

part I: separated dataが少ない(separationの影響を極力排除した)data setを用いて、EPV、共変量数、サンプルサイズが推定に及ぼす影響のシミュレーション

part II: separated data setの有無が推定に及ぼす影響のシミュレーション

を行い、Biasの程度、90%CIの名目被覆率と実際の被覆率の違いなどを評価

Results

  • EPV>10をlogistic regressionのサンプルサイズ充足の指標とするのは推定精度の観点からは不十分

  • EPV以外にも総サンプルサイズなどが推定精度に支配的な影響を及ぼしている

  • Separationが生じると推定精度が低下する

  • Firth correctionを用いることで、low EPVやSeparationが影響するデータセットでも推定精度が向上することがわかった

  • Logistic regressionでのサンプルサイズを考慮するときは、EPVだけでなく他の要因も考慮することが必要