📊 統計・データ

正規分布とランキングの関係 - 68-95-99.7 ルールを使いこなす

3 分で読める

正規分布はなぜ「正規」なのか

正規分布 (ガウス分布) は、自然界と社会現象の多くに現れる確率分布である。 身長、体重、IQ テストのスコア、測定誤差など、多数の独立した要因が 加算的に作用する現象は正規分布に従う傾向がある。 これは中心極限定理によって数学的に保証されている。

「正規」という名称は、この分布が「標準的」「規範的」であることを意味しない。 歴史的に最も早く研究され、最も広く応用されたために「正規」と呼ばれるようになった。 実際には、所得分布、都市の人口分布、地震の規模など、 正規分布に従わない重要な現象は数多く存在する。

68-95-99.7 ルール

正規分布の最も実用的な性質は、平均からの距離と確率の関係が一定であることだ。 平均 ± 1 標準偏差の範囲に全体の 68.3% が、± 2 標準偏差に 95.4% が、 ± 3 標準偏差に 99.7% が含まれる。これを「68-95-99.7 ルール」と呼ぶ。

MyRank の身長ランキングはこの性質を利用している。 日本人男性の平均身長 171.0 cm、標準偏差 5.5 cm とすると、 182 cm の人は平均から約 2 標準偏差上に位置し、上位約 2.3% (97.7 パーセンタイル) となる。 正規分布を仮定できるデータでは、平均と標準偏差の 2 つの値だけで 任意のパーセンタイルを正確に計算できる。

正規分布が成り立たないケース

所得分布は正規分布に従わない代表例である。 所得は下限が 0 (負にならない) で上限がなく、右に長い裾を持つ。 このような分布は対数正規分布やパレート分布でモデル化される。 正規分布を仮定して所得のパーセンタイルを計算すると、 上位層の所得を過小評価し、下位層を過大評価する。

MyRank の年収ランキングが正規分布ではなく実データの累積分布関数を 使用しているのはこのためである。データの分布形状に応じて 適切な統計モデルを選択することが、正確なランキング計算の前提となる。

標準偏差の直感的な理解

標準偏差は「データのばらつきの大きさ」を示す指標だが、 直感的に理解しにくいと感じる人は多い。 最も簡単な理解法は「典型的な個人が平均からどれだけ離れているか」と捉えることだ。

身長の標準偏差が 5.5 cm ということは、ランダムに選んだ 1 人の身長は 平均から約 5.5 cm 以内に収まることが「普通」(68% の確率) であることを意味する。 平均から 11 cm (2 標準偏差) 以上離れていれば「かなり珍しい」(5% 未満)、 16.5 cm (3 標準偏差) 以上なら「極めて稀」(0.3% 未満) と判断できる。

ランキングと正規分布の実践的な関係

正規分布に従うデータでは、パーセンタイルの「密度」が中央付近で最も高い。 つまり、50 パーセンタイル付近では小さな値の変化で順位が大きく動くが、 1 パーセンタイルや 99 パーセンタイル付近では大きな値の変化でも順位はほとんど動かない。

これは実感と一致する。身長 170 cm と 172 cm の差は順位に大きく影響するが、 190 cm と 192 cm の差はほとんど影響しない。 ランキングの「1 位の重み」は分布の形状によって異なることを理解しておくと、 自分の位置の変動に一喜一憂せずに済む。

関連記事

関連用語

この記事は役に立ちましたか?