prediction model構築の7 stepを解説したチュートリアル論文
Steyerberg, E. W. & Vergouwe, Y. Towards better clinical prediction models: seven steps for development and an ABCD for validation. Eur. Hear. J. 35, 1925–1931 (2014).
https://academic.oup.com/eurheartj/article/35/29/1925/2293109
GUSTO-1の予測モデル論文(Lee et al., Circulation, 1995)を例に解説する形でわかりやすい
予測モデルの構築や妥当性検証の部分は復習という意味合いが強かったが、GUSTO-1論文を予測モデルの研究デザインの妥当性の観点から振り返ることができて勉強になった
<7-steps>
1)要件定義,データ精査
予測すべき研究課題の吟味を行うフェーズ
- RQはなにか?
- 予測因子について既知のことはなにか?
- どのように患者を選択するか?
GUSTO-1論文ではRCTデータを使っている。組入基準は幅広く、急性心筋梗塞というアウトカムの代表性は保たれていると考えられる - 予測研究において、治療の効果をどう扱うか?
GUSTO-1論文では、元のデータがRCTであり薬剤治療有無のステータスが存在する。予測研究ではこの治療効果の扱いを考える必要がある。 - 予測因子の信頼性と欠測率はどれくらいか?
GUSTO-1論文ではRCTかつプロトコールがガチッと決まっているため、取得されたデータの信頼性は高い - 興味のあるendpointか?
Hard endpoint(死亡など)のほうがsoft endpointより好まれる
Endpointの発生頻度も重要。低いと予測因子の投入数が限られてしまう
2)予測因子coding
連続変数、カテゴリカル変数どちらにするか。
カテゴリカル変数にしたとき、カテゴリをまとめるかどうか(発生頻度、臨床的な解釈を考慮)
解釈可能性も考慮してcodingする。
わかりやすかったのは、年齢という予測因子を考えたとき。
一歳刻みのOR:1.09→1歳年をとるごとに1.09倍リスクが増える という解釈よりも
10歳刻みのOR:2.30→10歳年をとるごとに、2.3倍リスクが増える という解釈のほうが分かりやすい。
3)予測モデル設定
Stepwiseが予測因子の選抜に広く用いられているが、アウトカムの発生頻度が少ないとき、その選抜結果は非常に不安定になり、Overfittingのリスクも高まる。
上記のような統計学的な方法単独ではなく、臨床的な知見に基づいた選抜方法が重要となる
4)予測モデルによる推定
モデル設定が決まったあと、予測因子の効果をどう推定するか。
ロジスティック回帰やCox回帰では最尤推定法がよく使われるが、近年ではoverfittingに対応する目的で罰則付最尤推定やLASSOなどを適用する方法も出てきている。
5)モデル性能評価
後述するvalidationのABCDで詳述
6)validation
内的妥当性、外的妥当性の評価方法。
内的妥当性の評価方法として、k-hold cross-validationや、bootstrappingがよく使われている。
GUSTO-1論文では上記2つとも使用して妥当性を評価している。
外的妥当性は、時間的な外挿(モデル構築よりもさらに近年のデータに絞った評価)や、地域性(別の州、国など)での外挿、時間も地域も全く異なる集団に対する外挿で評価する。
7)結果の図示
回帰モデルの方程式をそのまま表示すると解釈性が悪いので、スコアリングシステムやチャートに落とし込むことが多い。アプリを作成して臨床的可用性を高めることも多い
<validationのABCD>
Alpha: calibration, intercept
Beta: calibration, slope
C-statistic: discrimitation
Decision-curve analysis: clinical usefulness
予測性能はCalibration、Discriminationの2つの概念で考えることが多い
Calibrationは、アウトカム発生リスク確率の予測性能のことであり、実測されたリスク確率の適合性を評価する。
Alpha(切片)が0、Beta(傾き)が1に近いほど予測がうまくいっていることを示唆する。
Discriminationは、アウトカムがHigh riskかlow riskかを識別する性能のことであり、ROC曲線を用いてAUC(=c-statistic)で算出することが多い
上記は一般的に論文でも見かけるが、最後にもう一つ、Decision-curve analysisという概念を新しく知ることができて勉強になった。
calibration, discriminationは、いわゆる予測性能としての指標であるが、予測可能な解像度がどれくらい臨床的に有用かというのは上記の指標では推し量ることができない。
臨床的有用性を考えるには、治療のベネフィットとリスク、当該疾病の臨床的重要度、検査のメリット、デメリットなどさまざまな要因のバランスを考える必要がある。
descision-curve analysisは、そのような臨床的な文脈での予測モデルの有用性を考えた解析方法である。
横軸はThreshold: 治療のリスク・ベネフィットの指標[Risk/(Risk+benefit)]、縦軸はNet benefit (NB): 治療により正味どれくらいベネフィットを享受したかの指標 を取っている。
Net benefit=(True positive - w*False Positive)/N
True positive (TP): 治療を受けるべきHigh riskと予測され、実際に負の転帰を辿った患者
False positive (FP): 治療を受けるべきHigh riskと予測されたが、実際は負の転帰にならなかった患者
w: weight=Risk/Benefit
N: 総患者数
という式で示される。TP, FP, Nはgivenな値であるから、実際にはweightとNBの関数になっている。weight=threshold/(1-threshold)であり、threshold、つまり治療のリスクとベネフィットのバランスはclinical settingや患者の意思、状況により変動する変数とみなすことができる。
このNBの概念を使い、全患者が治療を受けたとき(Treat all)、全患者が治療を受けなかったとき(Treat none)という極端な状況と比べて、提案した予測モデルが描く曲線がどういうものかを比較することができる。上記のFigでは、ageだけを予測因子にした予測モデルよりも、full modelのほうが臨床的有用性が高いと考えることができる。さらに、thresholdが2%(つまり、治療のリスクが治療をうけた全体の2%程度しかないと考えられるとき)、すべての患者に治療を適用した場合と、ageの予測モデルを使用して治療適用患者を選別する場合ではNBに違いがないため、threshold2%ではage予測モデルは不要とみなすことができる(コストや手間を無視すれば全員に治療を行って差し支えない)。
この概念は予測モデルを考える上で非常に重要だと考えており、臨床的な価値に直結するものだと思う。
junkな予測モデルが多数開発される中で、臨床で使われる価値のある予測モデルはなにか?というのを考える良いきっかけになった。自分の予測研究でもこのDescision-curve analysisはしっかり取り入れていきたい。