備忘録 as vet.

日々のアイデア、疑問など備忘録的に書きます。Scienceが好きです。

<論文感想>sparse data biasに対する対処法

Sparse data biasの検出方法と対処方法に関するレビュー

Greenland, S., Mansournia, M. A. & Altman, D. G. Sparse data bias: a problem hiding in plain sight. BMJ 352, i1981 (2016).

https://www.bmj.com/content/352/bmj.i1981

前回読んだLancetのEditorial論文で引用されていたSparse data biasに関する解説論文

多変量回帰分析を行うときなど、多数の共変量を組み込むことで、アウトカムの分布がsparseになる状況が生じ得る

そのような状況では、最尤推定法(MLE)による回帰係数の推定値がNon-Null方向にBiasされる(これをsparse data biasと呼ぶ)

このBiasは: - low Event per variable - アウトカムと共変量の分布が著しく分離している

などによって生じるが、これはトータルのサンプルサイズが大きくても生じ得る

このような問題を対処しないと、仮に交絡因子(共変量)を調整したとしても、交絡によるバイアスの補正よりもspase data biasが上回る可能性がある

sparse data biasの検出方法と対処方法

<検出方法>

通常のMLEによる推定結果と、penalised estimationによる結果を比較したとき、結果に乖離がある場合、biasが示唆される

<対処法とその欠点>

  1. Firth bias adjustment

    sparseなデータがあった場合、アウトカム、曝露の分割表の各セルに0.5を追加するという方法 ある種のpenalised estimationであり、MLEに比べてBiasを軽減することはできるが、強い仮定を強いているのと、調整しても比率に関する推定値では大きなBiasが残る可能性がある →他のPenalisationが推奨される

  2. Stepwiseによる変数選択

    最終モデルの推定量の信頼区間が過剰に狭くなる;推定値がインフレする;重要な交絡因子が除去される可能性がある

  3. Exact logistic regression

    サンプルサイズや共変量数が多いとき、計算負荷がかかる;RR,RDの算出には使えない;過剰に保守的(信頼区間が非常に広くなる)

  4. 曝露モデルを使用する(PS matching, IPTW)

    アウトカムがレアだがExposureが比較的多い場合には使える 一方で、Exposureの発生頻度がアウトカムより少ない、データの分布が極端なときはモデル設定の正確性がアウトカムモデルより劣る可能性あり

  5. Penalisation

    data augmentationという方法でもっともらしい事前分布(信頼区間)を仮定し、実際のデータセットに拡張して組み込むことで、事後的な分布 (信頼区間)のBiasを補正して妥当な推定量を得る方法


頻度論的な立場でpenalaisationを解説しているが、同時にベイジアンの解釈も取り入れており、なんとなくわかる一方、理解は不十分。 そのうちベイズ統計学も本腰を入れて取り組みたいが、まだまだFrequentistの沼は深い。。

実用的には

We thus strongly recommend that basic data numbers within treatment or exposure and outcome categories be examined and presented, and that adjustment methods such as penalisation be applied whenever the numbers of events per covariate fall below four or five. The weighting (degree of penalisation) for each variable is best determined so that the implied prior interval encompasses the full range of reasonable possibilities for the effect of the variable.

この部分を特に意識していきたい。