定義と性質
正規分布 (ガウス分布) は、平均値を中心に左右対称の釣り鐘型をとる 連続確率分布である。平均と標準偏差の 2 つのパラメータで完全に 特徴づけられ、中心極限定理により、多数の独立な確率変数の和は 元の分布によらず正規分布に近づく。
68-95-99.7 ルール
正規分布では、平均から標準偏差 1 つ分の範囲にデータの約 68% が、 2 つ分に約 95% が、3 つ分に約 99.7% が含まれる。このルールを 使えば、ある値が「どれくらい珍しいか」を直感的に判断できる。
たとえば平均年収から標準偏差 2 つ以上離れた値は、全体の約 2.5% にしか該当しない極端な値であると即座に判断できる。
正規分布が成り立たないケース
所得分布は右に長い裾を持つ対数正規分布に近く、正規分布の仮定は 成り立たない。身長や血圧は比較的正規分布に従うが、資産、SNS の フォロワー数、地震の規模などはべき乗則に従い、正規分布とは 全く異なる振る舞いを示す。
MyRank での応用
MyRank では指標ごとにデータの分布形状が異なる。身長のように 正規分布に近い指標ではパーセンタイルの変化が中央付近で緩やかになり、 所得のように歪んだ分布では上位層の差が圧縮される。分布の形状を 意識することで、自分の順位の「重み」をより正確に理解できる。