定義と正しい解釈
p 値とは、帰無仮説 (差がない・効果がないという仮説) が真であると 仮定したときに、観測されたデータ以上に極端な結果が偶然得られる確率である。 p 値が小さいほど「帰無仮説のもとでは起こりにくい結果が観測された」 ことを意味し、帰無仮説を棄却する根拠となる。 重要なのは、p 値は帰無仮説が正しい確率ではなく、 あくまでデータの極端さを測る指標だという点である。 p = 0.03 は「帰無仮説が正しい確率が 3%」ではなく、 「帰無仮説が正しいなら、このデータ以上に極端な結果が 3% の確率で生じる」 という意味にすぎない。
よくある誤解
最も広まっている誤解は「p < 0.05 なら 95% の確率で効果がある」 というものだ。これは条件付き確率の方向を逆転させた誤りである。 p 値は「仮説が与えられたときのデータの確率」であり、 「データが与えられたときの仮説の確率」ではない。 後者を知りたければベイズ統計の枠組みが必要になる。
また、p 値は効果の大きさを示さない。サンプルサイズが十分に大きければ、 実質的に無意味な微小な差でも統計的に有意になりうる。 逆にサンプルが小さければ、大きな効果があっても有意にならない。 p 値と効果量 (effect size) は常にセットで報告すべきである。
ASA 声明 (2016) の警告
2016 年、アメリカ統計学会 (ASA) は p 値の誤用に対する公式声明を発表した。 声明では 6 つの原則が示され、「p 値だけで科学的結論やビジネス上の 意思決定を下すべきではない」と明言された。 この声明以降、多くの学術誌が「統計的に有意」という二分法的な 表現を避けるよう著者に求めるようになった。 効果量、信頼区間、事前確率を含む総合的な判断が推奨されている。
ランキングデータの統計的有意性
MyRank で「あなたは上位 15% です」と表示されたとき、 その順位推定にはサンプルサイズに由来する不確実性が伴う。 たとえば 1000 人のデータから推定した上位 15% と、 10 万人のデータから推定した上位 15% では信頼度が異なる。 ランキング結果を解釈する際は、推定の精度 (信頼区間) と 差の実質的な意味 (効果量) を意識することで、 数字に振り回されない冷静な自己評価が可能になる。