平均への回帰が発見された経緯

1886 年、Francis Galton は親の身長と子の身長の関係を調査し、背の高い親の子は親ほど背が高くならず、背の低い親の子は親ほど背が低くならないという傾向を発見した。極端な値は次の世代で平均に近づく。 Galton はこれを「平凡への回帰」(regression toward mediocrity) と名付け、これが「回帰分析」(regression analysis) の語源となった。

平均への回帰は生物学的な現象ではなく、純粋に統計的な現象である。測定値が極端であるほど、次の測定では平均に近い値が出やすい。これは測定誤差やランダムな変動が含まれるあらゆるデータに普遍的に生じる。

平均への回帰が生む因果の錯覚

平均への回帰を理解していないと、存在しない因果関係を見出してしまう。典型例は「叱ると成績が上がり、褒めると成績が下がる」という教師の経験則である。極端に悪い成績の後は (叱ろうが叱るまいが) 平均に戻りやすく、極端に良い成績の後は (褒めようが褒めまいが) 平均に戻りやすい。介入の効果と平均への回帰を区別できないのだ。

医療でも同様の問題がある。症状が最も重いときに治療を開始すれば、治療しなくても症状は改善する可能性が高い (平均への回帰)。治療の真の効果を測定するにはランダム化比較試験が必要であり、「治療前後の比較」だけでは平均への回帰と治療効果を分離できない。

スポーツと平均への回帰

「2 年目のジンクス」(sophomore slump) は平均への回帰の典型例である。新人王を獲得した選手は、翌年に成績が下がることが多い。しかしこれは「ジンクス」ではなく、統計的に予測可能な現象だ。新人王を獲得するほどの成績は、実力に加えて幸運な変動が重なった結果であり、翌年はその幸運が平均化されるだけである。

同様に、「表紙を飾ると成績が下がる」(Sports Illustrated jinx) も平均への回帰で説明できる。表紙に選ばれるのは直近の成績が極端に良いときであり、その後に成績が「普通」に戻るのは統計的に当然のことである。

平均への回帰を踏まえたデータの読み方

ランキングデータを解釈する際、以下の原則を意識すると誤った結論を避けられる。第一に、1 回の極端な測定値を過信しない。複数回の測定の平均を使うことで、ランダムな変動の影響を軽減できる。

第二に、「変化」を評価する際は平均への回帰を差し引いて考える。極端な値からの変化は、介入の効果ではなく統計的な必然かもしれない。第三に、集団の中で最も極端な個体を選んで追跡すると、ほぼ確実に「悪化」が観察される。これは選択バイアスと平均への回帰の複合効果であり、実際の悪化を意味しない。

平均への回帰 - 極端なランキング結果が次回「悪化」する理由

平均への回帰が発見された経緯

ランキングにおける平均への回帰の影響

平均への回帰が生む因果の錯覚

スポーツと平均への回帰

平均への回帰を踏まえたデータの読み方

関連記事

関連用語