備忘録 as vet.

日々のアイデア、疑問など備忘録的に書きます。Scienceが好きです。

<論文感想>p-value, 点推定値に関する解釈の誤解と、p-value関数を用いた統計的推定の重要性


p-value, 点推定値に関する解釈の誤解と、p-value関数を用いた統計的推定の重要性を論じた解説論文

Amrhein, V. & Greenland, S. Discuss practical importance of results based on interval estimates and p-value functions, not only on point estimates and null p-values. J Inform Technol 37, 316–320 (2022).

https://doi.org/10.1177/02683962221105904

 

昨今よく言われている

”p-valueの誤用(有意か否か)を避けて95%CIを見ましょう” 系の提言、、ではなく、さらにその先の信頼区間の解釈性、点推定値や仮説検定、null-effectの統計学的な立ち位置を明瞭に論じた上で、p-value関数を実践的に使いましょう、という解説論文。

5ページですぐ読み終わるかと思いきや、個人的には相当に重厚な内容で、今までの統計学の知識と理解力をフル動員してなんとか一日がかりで腹落ちするところまで読み終えた、、という感じ。

達成感はすごくて、仮説検定、p-value, 95%CIに関する解釈がかなりパワーアップした気がする。

<要約>

p-valueは、観察されたデータの確率分布(X)に対して、X=任意の統計モデル(例: 確率分布,線形性など)が成り立つと仮定を置いた上で算出される値*1である。

p-valueは、観察データの確率分布と、任意の統計モデルの適合度合いを表したもの。適合度合いが高いほどp-valueが高くなる。

 

仮説検定は、帰無仮説H0の確率分布Y_H0としたときに、観察されたデータの確率分布X=Y_H0と仮定した上で算出されるp-valueを評価していることになる。

有意水準を0.05としたとき、上記の帰無仮説のp-valueが0.05未満ならば、X=Y_H0という仮定が割に合わない(XとY_H0の適合度合いが低い)と判断したことを意味しており、つまり、帰無仮説を棄却することになる。

一方でp-valueが0.05以上ならば、X=Y_H0という仮定が、有意水準のもとでは割に合う(XとY_H0の適合度合いが高い)と判断することを意味しており、帰無仮説は棄却されないことになる。

 

p-valueは、すべての仮説についてそれぞれ計算される値であるため、仮説検定で見ているp-valueはたくさんあるp-valueの一つにすぎないことがわかる。

著者らは、この帰無仮説のp-value(と、仮説検定)に過剰にフォーカスして、議論の中心にするのはやめよう、と言っている。

昨今の統計学的な声明では、p-valueの二値的な判断(有意水準を定義してそれ以上か未満かで効果を判断する風潮)を止めようという動きがあるが、

この著者らは、更にその先にある、そもそも仮説検定という枠組み自体を議論の中心にするのは止めよう、という提案もしている。

仮説検定にフォーカスする=帰無仮説のp-valueだけにフォーカスするというのは、解釈として乏しいから 、得られた観察データに対する無数のp-value全体を見て効果を議論しましょう;そのために、95%信頼区間(95%CI)を使いましょう(なぜならば、95%CIはp>0.05の仮説全体の集合だから)といっている。

そして、p-valueの分布を表しているp値関数を明示すれば、より効果の尤もらしさが視覚的にわかるので、議論で有効活用できるよね、と主張している。

 

<intro>

Sen et al 2022は、効果推定において、p<0.05などのような二分的な統計学的有意差の有る無しだけで判断するのではなく、効果推定値の不確かさを考えるのが重要であると論じている

同様に、何十年にもわたり、p-valueの誤用が科学論文では見られ、多くの統計学者が統計学的検定よりも区間推定を用いるべきだ、と強調してきた

Sen et al 2022の指摘事項は尤もであり、大筋で同意するが、この指摘も十分ではなく、誤解が生じる点があるため、本論文では仮説検定、p-value、95%CIの考え方、使い方についてさらに論じる

 

<Sen et al 2022のmisleading>

Sen et al 2022は、 

・観察された効果と、統計学的有意性(=p-valueが小さい)の両方に着目するべき 

・p-value帰無仮説の仮説検定について用いることを推奨 

と述べている

このような帰無仮説のみにフォーカスして仮説検定するやり方(慣例)は、”nullism”と呼ばれる認知バイアスである 

nullismは論文などの科学的検証における歪みとして広まっており、その歪みは、p値の誤用について論じたSen et al 2022においてさえも同様に見られる

 

Sen et al 2022は論文中の推奨として

・p-valueは観察された結果が、偶然によってどの程度説明できるか、を評価するために使われる

・p-valueは観察された結果が偶然誤差に起因したものかどうかを確かめるのに有用

と述べている

この記述は、

帰無仮説に関するp-valueについてのみ言及しているのであれば、誤りである

 

理由:

帰無仮説のp-valueは、null-effectという仮定、管理不能な変動要因(偶然誤差?系統誤差?*2)がないという仮定 のもとで算出される

したがって、この状況のもとでは、

すべての観察されたnon-null effectは、偶然誤差によって”のみ”説明されるという推論を得ることになる

 

つまり、

p-valueは、観察された効果が”どの程度”偶然により説明されるか

という主張は成り立たない ∵p-valueは、偶然のみに依存するという仮定のもとで計算された確率である

 

 

<p-valueのさらに良い解釈の仕方>

observed dataと検証したい仮説とのcompatibility(適合度合い)の指標がobsearved p-valueであり、統計学的な仮定(線形性や正規性など)のもとで与えられる 

→これをbackground modelと呼ぶ 

 

”得られた結果が偶然により説明される程度” を正しく評価するためには、帰無仮説のp-valueだけでなく、対立仮説(群)のp-valueをすべて明示する必要がある

→まさに95%CIがその役割を担っている!

・95%CIはp>0.05のすべての仮説(=background modelに対する検定の結果、棄却されないときのデータ)についての区間である

・95%CIはbackground modelが与えられた元で、観察されたデータと最も適合する効果量を示している

帰無仮説のp-valueがp>0.05だった場合、帰無仮説が95%CIの中に含まれていることを表す

→background modelが与えられた元で、帰無仮説は、あくまでも、観察されたデータと適合する仮説群のうちの一つであることに過ぎない

 

<p値関数の導入>

信頼区間、p-valueの意味を解釈するときに、p値関数を考えると良い

Fig1

Fig.1は、background modelのもとで、データ(HR)から計算されるp-valueの分布を表したもの。

p>0.05の区間が、95%CIであり、観察データがbackground modelと最も適合している区間と解釈可能。点推定値のとき、最も適合性が高い。

帰無仮説(HR=1; null effect)が95%CIに辛うじて含まれているが、95%CIの大半は臨床的に意義のあるHRを含んでいる

95%CIはnull effect(帰無)仮説を含んでいるものの、大半のnon-null effect仮説群は帰無仮説よりもp-valueが大きいので、modelとの適合性が高い。

 

このように信頼区間をcompatibility intervalと解釈することで得られるメリットは: 

・仮説の不確かさが高い低いという曖昧なものではなく、仮説(効果量)に対する具体的な解釈が可能になる 

区間の中における仮説(効果量)の広がりに着目することで、帰無仮説の検定結果だけをみて効果がない、とする誤った判断がなくなる 

・点推定値に対する過剰な期待を避けることができる 

→p値関数をみると、点推定値に当たるピーク部分は、p=1.00であると同時に、95%CI=0%である。すなわち得られたデータとbackground modelとのcompatibilityが最も高いが、信頼区間推定幅が最も狭くゼロと等しい点である

 

注意しておきたいこととしては、

データ、統計モデルのいずれかが”信頼”に足りない場合、計算された区間も同様に”信頼”に足りない 

一方で、compatibilityは、仮定やデータが正しいか否かに依存せず、得られたデータと、統計モデルの間の適合性に関する数学的な説明をもたらすだけである

すなわち、モデルとデータの適合度合いが良いことと、それが真実を反映しているかどうかは全く別の話であり、真実を反映するためにはデータ、統計モデルが信頼に足る状況でなければならない

 

<補足>

s-valuesは、有意性や信頼区間をcompatibilityとして解釈するときに、p-valueが仮説やモデルに対してどれほど小さいエビデンスしか与えていないかがわかる指標  

s-value=-log2(p)

という式で表される

s-valuesは検定によって与えられた統計モデルに対する情報を、bit数として表現したものであり、コイントスでの確率の公正さ不確かさをとして置き換えることができる  

95%CIをs-valueで表すと約4bits(-log2(0.05)=4.32...)の情報量しか持たないことになる。 

つまり、コインが歪みなく正確に1/2を出しているかどうかを、4回のコイントスの結果だけで判断することになる 

→表が連続で四回出たから、コインは歪んでいる、と結論づけられるだろうか?十分ではないかもしれない。 

 

 

*1:

p-valueは、観察されたデータの確率分布(X)に対して、X=統計モデル(任意の確率分布Y)が成り立つと仮定を置いた上で算出される条件付き確率 P=(X|X=Y)という理解であっている?ここが個人的にまだ良くわかっていない点。

*2:no uncontrolled sourses of variation...管理不能な変動要因 は偶然誤差ではなく、系統誤差のことを述べている?系統誤差とすれば、その後の論理が理解できるが、偶然誤差とすると理解できない。controlled;管理可能=系統誤差 をuncontrolledtypo