信頼区間とは何か - 最も誤解される統計概念
「95% 信頼区間」は統計学で最も頻繁に使われ、最も頻繁に誤解される概念である。 正しい解釈は「同じ方法で 100 回サンプリングすれば、 そのうち 95 回の信頼区間が真の値を含む」であり、 「真の値がこの区間に含まれる確率が 95%」ではない。
この区別は哲学的に見えるが、実用上も重要である。 真の値は固定された定数であり、確率的に動くのは信頼区間のほうだ。 ある特定の信頼区間が計算された後、その区間が真の値を含むかどうかは 「含む」か「含まない」かの二択であり、確率の問題ではない。
ランキングデータにおける不確実性
MyRank が表示する「あなたは世界の上位 X%」という数値には、 暗黙の不確実性が含まれている。この不確実性の源泉は複数ある。 データソースのサンプリング誤差、測定誤差、 データの時間的なずれ、PPP 換算の不確実性などである。
たとえば「上位 25%」と表示された場合、真の値は 20〜30% の範囲にある可能性がある。 この不確実性を無視して「25%」を確定値として受け取ると、 わずかな入力値の変化で順位が大きく動いたように見え、混乱を招く。 ランキングの数字は「点推定値」であり、常に幅を持って解釈すべきである。
サンプルサイズと信頼区間の関係
信頼区間の幅はサンプルサイズの平方根に反比例する。 サンプルサイズを 4 倍にすると、信頼区間の幅は半分になる。 これは「精度を 2 倍にするには 4 倍のデータが必要」ということを意味し、 精度向上の収穫逓減を示している。
世界銀行の所得データは各国数千〜数万人のサンプルに基づいている。 人口 14 億人の中国で 1 万人のサンプルは十分に見えるが、 地域・年齢・職業の層別分析を行うと、各セルのサンプルサイズは急激に小さくなる。 「中国の 25〜34 歳の農村部男性の所得分布」のような細分化された推定には、 大きな不確実性が伴う。
p 値と信頼区間の関係
p 値と信頼区間は表裏一体の関係にある。 95% 信頼区間がゼロを含まないことと、p 値が 0.05 未満であることは同値である。 しかし、p 値が「効果の大きさ」を示さないのに対し、 信頼区間は「効果の大きさの範囲」を示す点で情報量が多い。
近年の統計学界では、p 値の二値的な使用 (有意/非有意) への批判が高まり、 効果量と信頼区間の報告が推奨されている。 American Statistical Association は 2016 年に p 値の誤用に関する声明を発表し、 「統計的有意性は科学的重要性を意味しない」と明言した。
不確実性を受け入れるリテラシー
人間の認知は確実性を好む。「あなたは上位 25%」という断定的な表現は、 「あなたはおそらく上位 20〜30% の範囲にいる」という表現より心理的に満足感がある。 しかし後者のほうが誠実であり、正確である。
データリテラシーの成熟は、不確実性を不快に感じるのではなく、 不確実性の大きさを適切に評価できるようになることである。 「この数字はどの程度信頼できるか」「不確実性の範囲内で結論は変わるか」 という問いを持つことが、データに振り回されない思考の基盤となる。