エビデンス全般 疫学

p値?なにそれおいしいの?

2020年12月9日

p値というものは、統計モデルを作ったりする学問分野でよく目にします。

だいたいが、「p値が0.05よりも小さいから、統計的に有意だ!」という具合に、その部分の結果を強調するために使われています。

最近は減ってきたかもしれませんが、一昔前はそれこそ有意有意と連呼するような場面もあったりなかったり。

そんなp値ですが、いったい何者なんでしょうか。

p値ってなに?

具体例で考えてみよう

具体例で説明しましょう。

日本人男性(20歳~40歳)を集めてきて、右利きの人と左利きの人の2グループに分けます。

右利きグループの平均身長は170cm、左利きグループの平均身長は172cmだったとしましょう。

その平均値の差は172-170=2cmですね。

それでは、左利きの方が身長が2cmほど高い、という結論を出していいでしょうか?

もちろん答えはノーです。

重要なのは、この平均値の差 2cm という値が、たまたまなのか、それとも本当に左利きの人の方が身長が高くなりやすいのか、という点です。

2cmという値そのものも大切ですが、まずは、偶然か必然かどっちなのか?を白黒つけなければなりません。

もし偶然だったら、2cmという値について深く考えること自体の意味が薄れますからね。

帰無仮説との繋がり

そこで、仮説を置きます。

仮説とは今回の場合「右利きの人も、左利きの人も、身長の平均値に差はない」という仮説です。

(研究を行うのであれば、仮説を置いてからデータを集めて分析する、という流れが実際の順番です。今回は、解説のための思考の流れとして見逃してくださいね。)

そして、結果としては平均値の差を見たら2cmという値になるわけです。

平均値がぴったり同じ方がおかしいので、多少の差はある方が自然ですね。

問題は、この2cmという値がどの程度極端なものなのか、です。

仮に右利きの人の身長の平均値は170cm、左利きの人の身長の平均値は180cmだとしたら、なんだか左利きの人の方が大きい、という結論は結構本当っぽいですよね。

偶然で10cmの差は生まれない気がします。

ですが、2cmというのはなかなか微妙です。

なんて感覚的に判断してはダメですね。それは科学ではありません。

統計を駆使しよう

そこで、統計手法を使うことになります。

仮説は「右利きの人も、左利きの人も、身長の平均値に差はない」でした。

今回、平均値の差が2cmという事実があります。

そこで「2cmという差が表れる確率はどの程度だろう?」と考えるわけですね。

ただ残念なことに、連続変数の場合、「点」で考えると確率はゼロになってしまいます(数学の極限に関する考え方です。t→0の微分。)

そのため、点ではなくて面での確率を計算せざるを得ません。その方が解釈もしやすいので(無限回の計算は無駄)結果オーライなんですけどね。

ということで、「2cmという差、あるいは、もっと極端な差(2.1cmとか、3cmとか、10cmとか、20cmとか)が現れる確率はどの程度だろう?」と、考えを少し広げます。

そして、「2cmという差、あるいは、もっと極端な差(2.1cmとか、3cmとか、10cmとか、20cmとか)が現れる確率」がp値なんですね。

p値は確率、優位水準は判断基準

p値は確率です。

何かが観察された時に、観察された値そのものか、あるいはもーっと極端な値をとる確率を計算して出てきた試算値が、p値なんです。

「右利きの人も、左利きの人も、身長の平均値に差はない」という仮説が正しいとしたとき、「2cmという差、あるいは、もっと極端な差(2.1cmとか、3cmとか、10cmとか、20cmとか)が現れる確率」は1%になるはずだ、という試算結果が出たとしましょう。

(この計算は、仮説と例数(サンプルサイズ)をもとに計算することができます。)

ここで、「わあ!運がいいな!」と受け入れてはだめです。

「1%しかないはずなのに、いまこうして2cmの差があるという結果が出たのは、何かおかしい」と疑うのが科学なんです。

なんだか世知辛いですね。

じゃあ、モデルで試算したときに、何%の確率までなら「今回はたまたま運がよかっただけ、本当は差なんてないんだよね」と考えますか?

その基準が、優位水準5%という、5%の値です。適当なんです。

なんで5%なの?という質問は、良い子はしてはいけませんよ。理不尽に怒られちゃうかもしれませんから。

もう一度いいます。優位水準の決め方は適当です。そこに明確な根拠はないことが普通で、さらには、仮説が正しいかどうかの確率ではありません。

有意水準は、人間が適当に決めた、「このくらいが境目かな?」という境目です。

p値に関する注意点:なんでもp値に頼っちゃアカン!

p値というのが白黒つけるのに使いやすいがために、依存し始める人が続出しました。

そのため、最近は「p値もほどほどにね!」と釘を刺され始めました。

p値にまつわる原則あれこれ

  1. p値はデータと特定の統計モデルが矛盾する程度をしめす指標のひとつに過ぎません。
  2. p値は、調べている仮説が正しい確率や、データが偶然のみで得られた確率を測るものではありません。
  3. 科学的な結論や、ビジネス、政策における決定は、P値がある値を超えたかどうかにのみ基づくべきではありません。
  4. 適正な推測のためには、すべてを報告する透明性が必要です。
  5. p値や統計的有意性は、効果の大きさや結果の重要性を意味しません。
  6. p値は、それだけでは統計モデルや仮説に関するエビデンスの、よい指標とはなりません。

P 値以外のアプローチ

p値以外のアプローチには以下のものがあります。

  • 信頼区間、信用区間、予測区間などの、検定よりも推定を強調した方法
  • ベイズ流の方法
  • 尤度比やベイズファクターなどの指標
  • 決定理論やFalse Discovery Rate といったアプローチ

まとめ

p値は確率、優位水準は判断基準。

それだけ覚えておけば大丈夫です。

-エビデンス全般, 疫学

© 2021 Real-World Data/Evidence website