外れ値とは何か

統計学における外れ値 (outlier) とは、データの大部分から著しく離れた観測値である。明確な定義は文脈によって異なるが、一般的には平均から 3 標準偏差以上離れた値、または四分位範囲 (IQR) の 1.5 倍を超えて箱ひげ図の外に位置する値を指す。

外れ値は 2 種類に大別される。測定エラーやデータ入力ミスによる「誤った外れ値」と、実際に存在する極端な値である「真の外れ値」だ。前者は除去すべきだが、後者は重要な情報を含んでいる可能性がある。ジェフ・ベゾスの資産が所得分布の外れ値であるのは、エラーではなく現実である。

外れ値が平均値を歪める仕組み

10 人の年収が 400, 420, 450, 460, 480, 500, 520, 550, 580, 600 万円のとき、平均は 496 万円で中央値は 490 万円、両者はほぼ一致する。ここに年収 5 億円の 1 人が加わると、平均は 4,997 万円に跳ね上がるが、中央値は 500 万円とほとんど変わらない。

この例は、外れ値に対する平均値の脆弱性を端的に示している。「日本人の平均貯蓄額は 1,901 万円」という統計が実感と乖離するのは、少数の超富裕層が平均を引き上げているためだ。中央値 (1,061 万円) のほうが「典型的な日本人」の実態に近い。

外れ値の検出と対処

外れ値の検出方法は複数存在する。Z スコア法 (|z| > 3 を外れ値とする)、 IQR 法 (Q1 - 1.5×IQR 未満または Q3 + 1.5×IQR 超を外れ値とする)、 Grubbs 検定、DBSCAN などのクラスタリング手法が代表的である。

外れ値を検出した後の対処は慎重に行う必要がある。機械的に除去すると、重要な情報を失う可能性がある。 MyRank では外れ値を除去せず、ロバストな統計量 (中央値、パーセンタイル) を使用することで、外れ値の影響を自然に軽減している。

外れ値から学べること

外れ値は「ノイズ」として無視されがちだが、しばしば最も興味深い情報を含んでいる。医学研究では、治療に異常に良く反応した患者 (super responder) の分析が新たな治療法の発見につながることがある。

ランキングの文脈では、極端な位置にいる人やデータポイントは、「なぜそこに位置するのか」という問いを生む。その問いへの答えが、分布全体の理解を深めることがある。外れ値を排除するのではなく、その存在理由を探ることが、データから知見を引き出す上で重要な姿勢である。

外れ値がランキングに与える影響 - 平均値の罠を超えて

外れ値とは何か

外れ値が平均値を歪める仕組み

ランキングにおける外れ値の影響

外れ値の検出と対処

外れ値から学べること

関連記事

関連用語