定義
標準偏差 (standard deviation) とは、データが平均値からどれだけ散らばっているかを 示す統計量である。値が大きいほどデータのばらつきが大きい。 分散 (各データと平均の差の二乗の平均) の正の平方根として定義される。
正規分布との関係
データが正規分布に従う場合、平均 ± 1 標準偏差の範囲に約 68% のデータが、 ± 2 標準偏差に約 95%、± 3 標準偏差に約 99.7% のデータが含まれる。 これを「68-95-99.7 ルール」と呼ぶ。
ランキングでの活用
身長のように正規分布に近いデータでは、標準偏差を使って パーセンタイルを効率的に計算できる。 平均から何標準偏差離れているか (z スコア) を求め、 正規分布表からパーセンタイルを導出する。
一方、年収のように正規分布に従わないデータでは、 標準偏差だけでは分布の形状を十分に表現できない。 MyRank では、データの分布特性に応じて適切な計算方法を選択している。