外れ値とは何か
統計学における外れ値 (outlier) とは、データの大部分から著しく離れた観測値である。 明確な定義は文脈によって異なるが、一般的には平均から 3 標準偏差以上離れた値、 または四分位範囲 (IQR) の 1.5 倍を超えて箱ひげ図の外に位置する値を指す。
外れ値は 2 種類に大別される。測定エラーやデータ入力ミスによる「誤った外れ値」と、 実際に存在する極端な値である「真の外れ値」だ。 前者は除去すべきだが、後者は重要な情報を含んでいる可能性がある。 ジェフ・ベゾスの資産が所得分布の外れ値であるのは、エラーではなく現実である。
外れ値が平均値を歪める仕組み
10 人の年収が 400, 420, 450, 460, 480, 500, 520, 550, 580, 600 万円のとき、 平均は 496 万円で中央値は 490 万円、両者はほぼ一致する。 ここに年収 5 億円の 1 人が加わると、平均は 4,997 万円に跳ね上がるが、 中央値は 500 万円とほとんど変わらない。
この例は、外れ値に対する平均値の脆弱性を端的に示している。 「日本人の平均貯蓄額は 1,901 万円」という統計が実感と乖離するのは、 少数の超富裕層が平均を引き上げているためだ。 中央値 (1,061 万円) のほうが「典型的な日本人」の実態に近い。
ランキングにおける外れ値の影響
パーセンタイルベースのランキングは、外れ値の影響を受けにくい。 なぜなら、パーセンタイルは順位に基づく指標であり、 最大値がいくら極端でも、他の人の順位は変わらないからだ。 これが MyRank がパーセンタイルを採用する理由の一つである。
ただし、外れ値はパーセンタイルの「解釈」に影響する。 年収の 99 パーセンタイルと 99.9 パーセンタイルの差は、 50 パーセンタイルと 51 パーセンタイルの差とは比較にならないほど大きい。 パーセンタイルは順位を均等に圧縮するため、 分布の裾における実質的な差を過小表現する傾向がある。
外れ値の検出と対処
外れ値の検出方法は複数存在する。Z スコア法 (|z| > 3 を外れ値とする)、 IQR 法 (Q1 - 1.5×IQR 未満または Q3 + 1.5×IQR 超を外れ値とする)、 Grubbs 検定、DBSCAN などのクラスタリング手法が代表的である。
外れ値を検出した後の対処は慎重に行う必要がある。 機械的に除去すると、重要な情報を失う可能性がある。 MyRank では外れ値を除去せず、ロバストな統計量 (中央値、パーセンタイル) を 使用することで、外れ値の影響を自然に軽減している。
外れ値から学べること
外れ値は「ノイズ」として無視されがちだが、 しばしば最も興味深い情報を含んでいる。 医学研究では、治療に異常に良く反応した患者 (super responder) の分析が 新たな治療法の発見につながることがある。
ランキングの文脈では、極端な位置にいる人やデータポイントは、 「なぜそこに位置するのか」という問いを生む。 その問いへの答えが、分布全体の理解を深めることがある。 外れ値を排除するのではなく、その存在理由を探ることが、 データから知見を引き出す上で重要な姿勢である。