正規分布はなぜ「正規」なのか

正規分布 (ガウス分布) は、自然界と社会現象の多くに現れる確率分布である。身長、体重、IQ テストのスコア、測定誤差など、多数の独立した要因が加算的に作用する現象は正規分布に従う傾向がある。これは中心極限定理によって数学的に保証されている。

「正規」という名称は、この分布が「標準的」「規範的」であることを意味しない。歴史的に最も早く研究され、最も広く応用されたために「正規」と呼ばれるようになった。実際には、所得分布、都市の人口分布、地震の規模など、正規分布に従わない重要な現象は数多く存在する。

68-95-99.7 ルール

正規分布の最も実用的な性質は、平均からの距離と確率の関係が一定であることだ。平均 ± 1 標準偏差の範囲に全体の 68.3% が、± 2 標準偏差に 95.4% が、 ± 3 標準偏差に 99.7% が含まれる。これを「68-95-99.7 ルール」と呼ぶ。

MyRank の身長ランキングはこの性質を利用している。日本人男性の平均身長 171.0 cm、標準偏差 5.5 cm とすると、 182 cm の人は平均から約 2 標準偏差上に位置し、上位約 2.3% (97.7 パーセンタイル) となる。正規分布を仮定できるデータでは、平均と標準偏差の 2 つの値だけで任意のパーセンタイルを正確に計算できる。

正規分布が成り立たないケース

所得分布は正規分布に従わない代表例である。所得は下限が 0 (負にならない) で上限がなく、右に長い裾を持つ。このような分布は対数正規分布やパレート分布でモデル化される。正規分布を仮定して所得のパーセンタイルを計算すると、上位層の所得を過小評価し、下位層を過大評価する。

MyRank の年収ランキングが正規分布ではなく実データの累積分布関数を使用しているのはこのためである。データの分布形状に応じて適切な統計モデルを選択することが、正確なランキング計算の前提となる。

標準偏差の直感的な理解

標準偏差は「データのばらつきの大きさ」を示す指標だが、直感的に理解しにくいと感じる人は多い。最も簡単な理解法は「典型的な個人が平均からどれだけ離れているか」と捉えることだ。

身長の標準偏差が 5.5 cm ということは、ランダムに選んだ 1 人の身長は平均から約 5.5 cm 以内に収まることが「普通」(68% の確率) であることを意味する。平均から 11 cm (2 標準偏差) 以上離れていれば「かなり珍しい」(5% 未満)、 16.5 cm (3 標準偏差) 以上なら「極めて稀」(0.3% 未満) と判断できる。

正規分布とランキングの関係 - 68-95-99.7 ルールを使いこなす

正規分布はなぜ「正規」なのか

68-95-99.7 ルール

正規分布が成り立たないケース

標準偏差の直感的な理解

ランキングと正規分布の実践的な関係

関連記事

関連用語