備忘録 as vet.

日々のアイデア、疑問など備忘録的に書きます。Scienceが好きです。

<論文感想>低次元データにおける予測モデル構築のための罰則付きパラメータ推定方法の性能比較

低次元二値アウトカム(アウトカム発生数がパラメータ数より十分多くない状況)の予測モデル構築におけるパラメータ推定法に関する解説と手法の比較

Pavlou, M., Ambler, G., Seaman, S., Iorio, M. D. & Omar, R. Z. Review and evaluation of penalised regression methods for risk prediction in low-dimensional data with few events. Stat. Med. 35, 1159–1177 (2016).

https://onlinelibrary.wiley.com/doi/10.1002/sim.6782

予測モデル構築において、予測因子の変数選抜や予測因子の回帰係数の推定の手法はいくつかある。医学分野で一番良く見るのは最尤推定でBackwards stepwiseによる変数選択法だが、問題点も多い。 アウトカム発生数が少ないようなシチュエーションでは、安定した推定自体が困難なときがあるしoverfittingにより予測性能が低下することもある。 パラメータ数に罰則を設け、推定した回帰係数をnull方向にshrinkageすることでoverfittingを低減する手法が提案されている。 様々なシチュエーションにおいて各種手法の性能を比較したReview論文。

shrinkageについては、以下の教科書がわかりやすくて参考になった。*1

Regression Modeling Strategies With Applications to Linear Models, Logistic and Ordinal Regression, and Survival Analysis link.springer.com

Intro

  • 予測モデル構築において、低次元データセット(特にパラメータ数>アウトカム発生数の状況)ではoverfittingが問題になる
  • 医学領域では、パラメータ数とイベント数の比の経験的な数字として10EPV(10 Event Per Variable)を一つの目標として使用されてきたが、これは科学的根拠に基づくわけではない
  • パラメータ選択の方法として従来stepwiseなどがよく用いられているが、変数選抜の再現性の低さ、不安定性などの問題点が多く存在する
  • さらに、パラメータ選択をしてもなお、EPVが低くなってしまう状況もありえる
  • そのようなoverfittingに対処する方法として、shrinkageという統計学的手法がある
  • 代表的なものにRidge、Lassoがあり、高次元データにおいてはbackwards 、univariate selectionに比べて性能が良いことが示されている
  • Lassoなどを拡張したelastic net, adaptive lasso, SCAD などは高次元データにおいて従来のRidge, Lassoより優れた性能を示した
  • しかし、低次元データセットにおける各種手法の優位性を比較した研究は少ない
  • 本論文では低次元データセットにおいて、頻度論的手法(MLE, penalized MLE, Ridge, Lasso, adaptive Lasso, Elastic net, Smoothly clipped absolute deviation[SCAD])とベイジアン手法(Bayesian ridge, Bayesian lasso, Stochastic search variable selection[SSVS])のそれぞれで予測性能を評価する
dataset
  • 陰茎がんの5年生存率に関するデータを使用
  • アウトカム(5年以内死亡)発生数は25。
  • 用いる予測候補因子は9つ:
    • 連続変数ー細胞増殖に関するバイオマーカー(Ki67、Mcm2、Ki67-g95), 診断時の年齢、組織浸潤の深度
    • 二値変数ーリンパ節の転移有無、リンパ管浸潤の有無、腫瘍拡大の程度、DNA倍数性

手法サマリ

  • MLE

    Yをアウトカム、Xを予測変数のベクトル、βを回帰係数のベクトルとするとき、ロジスティク回帰モデルをlogit(E(Y|X)) = βTX

    MLEでは対数尤度比: l(β)が最大となる値βを求めに行く

  • 罰則付きMLE

    l(β) − λpen(β), pen=罰則項、λ=チューニングパラメータ

  • Ridge

    多重共線性に対応するために開発。相関の高い説明変数の回帰係数をNull方向に縮約する

  • Lasso

    回帰係数をNull方向に縮約するが、完全に0になることもあるため、ある種の変数選択とみなせる

  • Elastic net

    RidgeとLassoの組み合わせバージョン。罰則項はridgeとlassoを足し合わせたもの

  • Adaptive lasso

    lassoの各罰則項にweightをかけたもの。weightはridge regressionにおける回帰係数の逆数にすることが多く、結果として回帰係数が大きい(予測寄与度が大きい)因子のshrinkageは小さく、予測寄与度が小さい因子のshrinkageは大きくなる

以下詳細省略(理解できていません) * Smoothly clipped absolute deviation(SCAD) * Bayesian approach * Bayesian ridge * Bayesian lasso * Stochastic search variable selection(SSVS)

results

1)実際の低次元データセットを用いた予測性能比較
  1. calibration slope 予測リスク(確率)を横軸、実際のリスクを縦軸に取り直線を引いたとき、完璧な予測であればslope=1となるが、new dataに対してoverfittingするとslopeは1から遠ざかる。 MLE、BEはともにshrinkageを行わない推定方法であり、slopeは明らかに1を下回っている。他のshrinkageの方法は全体的にslopeを保持しており、overfittingに対応できていると言える。 Ridgeはslope=1.2に近く、ややunderestimateな感じ。

  2. c-statistics (discrimination) いわゆるROC曲線のAUC。真のHigh risk患者を予測モデルでHigh riskと分類できる確率のこと。理想的にはc=1となり、c=0.5だと1/2の確率で分類を間違えることと同じ。 MLEに比べてやや改善しているが、手法によってはMLEとほぼ同性能のものもある(Adaptive Lasso, SCADなど)

  3. RPMSE 患者ごとの予測確率と実測確率の差の二乗和の平均の平方根。つまり予測確率と実測確率にどれくらい差があるかを見ているので、0に近いほど予測性能が高い。 これもMLEに比べていずれのshrinkage手法も良好な性能を示している。

Prediction ability comparison

2)推定リスクの被覆確率比較

MLEに比べて、ridge, lasso, Bayesian Lasso and SSVSのいずれも被覆確率は向上している。 実測確率における被覆確率では、RidgeはHigh riskになるほど被覆確率が低下しているが、Lassoは比較的保持(90%)されている。 Bayesian Lasso and SSVSはHigh riskではLassoと同じような動きだが、Low riskでは顕著に被覆確率が低下していることが特徴的。

coverage probability

3)回帰係数の推定量のバイアス比較

各回帰係数の真の推定量に対して、手法ごとの推定量がどれくらいバイアスを有しているのかを評価。 罰則付き回帰手法は、各回帰係数の推定量をnull方向にshrinkageすることでOverfittingを抑えていたが、言い換えれば回帰係数の推定量はバイアスを受けることと同じ。

真の回帰係数からの変動%で表しているが、そもそも真の回帰係数をどうやって求めたのか論文読んでも分からず。 LassoやAdaptive Lassoでは回帰係数が小さい(予測寄与度合いの低い)因子ではバイアスが大きくshrinkageの程度が大きく、予測寄与度合いの高い因子ではバイアスが小さくなるのがわかる。 一方でRidge, Erastic netなどは比較的バイアスの程度が小さく、予測因子間でもそこまで大きな変動がない。

Bias estimation

この結果のところでなるほど、と思ったのは以下の文:

While unbiased estimation of coefficients is important when the aim is to investigate associations, bias is considered to be a less important issue for risk prediction studies where the predictive performance of the model is of main interest.

いわゆるリスク因子解析のように各共変量自体の回帰係数の推定量に注目できるのは、あくまで不偏推定量のときのみであり、今回の手法のように予測妥当性を担保するために推定量にあえてバイアスをかけるモデルでは、各予測因子の回帰係数を解釈することは重視しない(そもそも解釈が困難だしミスリーディングになりそう)。

予測研究をする上で、結局多変量解析するなら、リスク因子ごとの寄与度(OR)も算出されるから、それぞれのORについて臨床的な解釈も同時に行って、リスク因子解析&予測性能評価の両方やったら一石二鳥じゃん!って思っていたが、そういうわけにはいかなそう。興味のある結果(研究目的)にターゲットを絞って論文構成を考えないといけない理由は、論理の整然化だけでなく、解析上の問題もあるということか。

4)低次元データセットに様々なダミーデータを加えたシミュレーションによる予測性能比較
  1. noise variable 予測に全く寄与しない(回帰係数=0)のnoise variableを加えた状況でシミュレーション
  2. correlated predictors 変数同士が強く相関する多重共線性を持った変数を加えた状況でシミュレーション

結論

ベストな手法があるわけではない。Pros/Consを理解して、状況に応じてベターな手法を選びましょう。という結論。 とはいっても、以下のサマリーを見る限り、Elastic NetかSSVSを選んでおけば良さそうな印象。頻度論的にアプローチするなら、Elastic Net、Bayesian的にいくならSSVSという感じだろうか。

Summary

*1:ちなみに探せば無料でPDFダウンロードできる