📊 統計・データ

外れ値

はずれち

データの大部分から著しく離れた観測値。平均値を歪めるが、重要な情報を含むこともある。

1 分で読める

定義と検出方法

外れ値とは、データセットの大部分から著しく離れた観測値のことである。 検出方法としては、四分位範囲 (IQR) の 1.5 倍を超える値を外れ値と みなす方法や、平均から 3 標準偏差以上離れた値を検出する方法が 一般的に用いられる。

平均値への影響

外れ値は平均値を大きく歪める。たとえば 10 人の集団に年収 100 億円の人が 1 人加わると、平均年収は実態とかけ離れた値になる。 このため、所得統計では中央値が代表値として好まれる。

一方で、外れ値を安易に除外すると重要な情報を失う可能性がある。 測定ミスによる外れ値と、真に極端な値を区別する判断が求められる。

パーセンタイルのロバスト性

パーセンタイルは順位に基づく統計量であるため、外れ値の影響を ほとんど受けない。上位 0.1% の超富裕層がいくら資産を増やしても、 50 パーセンタイル (中央値) の位置は変わらない。この頑健性が、 ランキングにパーセンタイルを使う大きな利点である。

MyRank での対処

MyRank では、各指標のデータに含まれる外れ値の影響を最小化するため、 パーセンタイルベースの順位付けを採用している。ユーザーが入力した値が データの範囲外であっても、最上位または最下位として適切に処理される。 極端な値に振り回されない堅実な順位表示を実現している。

関連用語

関連記事

この用語解説は役に立ちましたか?