定義とバークレー入試の例
シンプソンのパラドックスとは、部分集団ごとに観察される傾向が 全体を統合したときに逆転する統計的現象である。1973 年の カリフォルニア大学バークレー校の入試データが有名な実例で、 学部別に見ると女性の合格率が男性と同等かそれ以上だったにも かかわらず、全体を合算すると女性の合格率が低く見えた。 これは女性が競争率の高い学部に集中して出願していたためである。
交絡変数の役割
パラドックスの本質は交絡変数の存在にある。交絡変数とは、 原因と結果の両方に影響を与える第三の変数であり、これを 無視して集計すると見かけ上の関係が生じる。バークレーの例では 「出願先の学部」が交絡変数だった。
交絡を制御するには層別分析、回帰分析、傾向スコアマッチングなどの 手法が用いられる。単純な全体集計だけでは因果関係を正しく 把握できないことを、このパラドックスは端的に示している。
ランキングデータでの発生例
MyRank のような世界ランキングでもシンプソンのパラドックスは 起こりうる。たとえば各年齢層では日本人の平均歩数が世界平均を 上回っていても、高齢者比率が高い日本の全体平均は世界平均を 下回る可能性がある。集団の構成比が異なるデータを比較する際は、 常にこのパラドックスを意識する必要がある。
集計レベルの選択が結論を変える
データをどのレベルで集計するかによって結論が正反対になりうる という事実は、ランキングの解釈において極めて重要である。 国別ランキング、地域別ランキング、年齢層別ランキングのいずれを 見るかで自分の位置づけは大きく変わる。一つの集計結果だけを 鵜呑みにせず、複数の切り口で確認することが正確な自己認識への 第一歩となる。