📊 統計・データ

シンプソンのパラドックス - 集計レベルで結論が逆転する罠

3 分で読める

シンプソンのパラドックスとは

シンプソンのパラドックスは、部分集団ごとに見ると成り立つ傾向が、 全体を統合すると逆転する現象である。 1973 年のバークレー大学入試差別訴訟が有名な実例だ。 全体の合格率は男性 44%、女性 35% で男性有利に見えたが、 学部ごとに見ると大半の学部で女性の合格率が男性を上回っていた。

この逆転が生じた理由は、女性が競争率の高い学部に集中して出願していたためだ。 合格率の低い学部に多くの女性が応募した結果、全体を合算すると 女性の合格率が低く見えた。差別ではなく、出願パターンの偏りが原因だった。 データを適切に層別化しなければ、存在しない差別を「発見」してしまう。

ランキングデータにおけるシンプソンのパラドックス

世界ランキングでも同様の逆転が起こりうる。 たとえば「国 A は国 B より平均寿命が長い」という全体の傾向が、 年齢層別に見ると逆転することがある。 国 A の若年層死亡率が極端に低い (乳幼児医療が充実) 一方で、 高齢者の寿命は国 B のほうが長い、というケースだ。

所得ランキングでも、「国全体の中央値所得は上昇した」が 「すべての年齢層で中央値所得は下降した」という矛盾が生じうる。 高所得の高齢者層の比率が増加すると、各年齢層の所得が下がっても 全体の中央値は上昇する。人口構成の変化が集計値を歪めるのだ。

交絡変数 - 隠れた第三の要因

シンプソンのパラドックスの本質は「交絡変数」(confounding variable) の存在にある。 交絡変数とは、原因と結果の両方に影響を与える第三の変数であり、 これを無視すると見かけ上の関連が生じたり、真の関連が隠されたりする。

バークレーの例では「出願学部」が交絡変数だった。 性別が出願学部の選択に影響し、出願学部が合格率に影響する。 この交絡を無視して性別と合格率だけを見ると、誤った結論に至る。 ランキングデータを解釈する際は、常に「この関連を説明する 第三の変数はないか」と問うことが重要である。

集計レベルの選択が結論を変える

シンプソンのパラドックスが示す根本的な教訓は、 「どのレベルで集計するかによって結論が変わる」ということだ。 全体で見るか、部分集団で見るか、どちらが「正しい」かは 分析の目的と因果構造に依存する。

差別の有無を調べるなら学部別 (層別) の分析が適切であり、 大学全体のリソース配分を考えるなら全体の数字が適切かもしれない。 「正しい集計レベル」は一意に決まらず、問いの立て方に依存する。 ランキングの数字を見たとき、「この数字はどのレベルで集計されたものか」 「別のレベルで見ると結論は変わるか」を考える習慣が必要だ。

パラドックスを見抜くための実践

シンプソンのパラドックスを見抜くための実践的なアプローチがある。 第一に、全体の傾向を見たら必ず部分集団でも確認する。 性別、年齢層、地域、所得階層など、主要な層別変数で分解して 傾向が一貫しているか検証する。

第二に、集団の構成比が時間とともに変化していないか確認する。 「平均が上がった」のは各個人が改善したからか、 構成比が変わったからかを区別する。 第三に、因果ダイアグラム (DAG) を描いて交絡構造を可視化する。 どの変数を条件づけるべきかは、因果構造の理解なしには判断できない。

関連記事

関連用語

この記事は役に立ちましたか?