中央値と平均値 - 同じデータから異なる物語
10 人の年収が 300, 350, 380, 400, 420, 450, 480, 520, 600, 5000 万円のとき、 平均値は 890 万円、中央値は 435 万円である。 平均値は「典型的な人」の 2 倍以上の値を示し、 10 人中 9 人が「平均以下」という直感に反する状況が生じる。 1 人の外れ値 (5000 万円) が平均を引き上げているためだ。
この例は極端だが、現実の所得分布でも同様の乖離が生じる。 日本の給与所得者の平均年収は 458 万円だが、中央値は 396 万円である。 「平均年収」を基準に自分の位置を判断すると、 実際より低い位置にいると錯覚する人が多数派になる。 MyRank がパーセンタイル (中央値ベースの順位) を採用するのは、 この平均値の歪みを回避するためである。
どちらを使うべきか - 分布の形状による判断
平均値と中央値のどちらが適切かは、データの分布形状に依存する。 正規分布 (左右対称) に近いデータでは両者はほぼ一致し、どちらを使っても問題ない。 身長、血圧、IQ スコアなどがこれに該当する。
一方、右に裾が長い分布 (正の歪度) では中央値が「典型的な値」をよりよく表す。 所得、資産、住宅価格、企業の売上高などがこれに該当する。 左に裾が長い分布 (負の歪度) は稀だが、試験の点数 (満点に近い人が多い場合) や 製品の寿命 (初期不良で早期に壊れるものがある場合) で見られる。
メディアが平均値を好む理由
ニュースや報道では中央値より平均値が使われることが圧倒的に多い。 これには複数の理由がある。第一に、平均値のほうが計算が簡単で直感的に理解しやすい。 第二に、平均値のほうが「大きな数字」になりやすく、見出しのインパクトが強い。 「平均貯蓄額 1,901 万円」は「中央値 1,061 万円」より注目を集める。
第三に、政策的な意図がある場合がある。 経済成長の成果を強調したいときは平均値 (上位層の成長が反映される) を、 格差を強調したいときは中央値 (多数派の停滞が見える) を使う。 同じデータから正反対のナラティブを構築できるのだ。 データの消費者として、「どの代表値が使われているか」を 常に確認する習慣が必要である。
その他の代表値 - 最頻値とトリム平均
平均値と中央値以外にも代表値は存在する。 最頻値 (mode) は最も頻度の高い値であり、離散データや多峰分布で有用だが、 連続データでは定義が曖昧になる。 トリム平均 (trimmed mean) は上下の極端な値を一定割合除外してから 平均を取る方法で、外れ値に対するロバスト性と情報量のバランスが良い。
フィギュアスケートの採点で最高点と最低点を除外するのはトリム平均の応用であり、 極端な審判の影響を排除する目的がある。 MyRank のランキング計算では、データソースの特性に応じて 適切な代表値と分布モデルを選択している。 所得にはパーセンタイル (中央値ベース)、身長には正規分布近似 (平均ベース) を使う。
代表値リテラシーの実践
データを見たときに問うべき 3 つの質問がある。 第一に「この数字は平均か中央値か」。報道や広告で提示される数字の多くは この区別を明示しない。第二に「分布は対称か非対称か」。 非対称なら平均値は多数派の実態を反映しない。
第三に「自分はどの位置にいるか」。平均値が 500 万円でも、 自分が 400 万円なら「平均以下」だが、中央値 (396 万円) より上かもしれない。 代表値は分布全体を 1 つの数字に圧縮するため、必ず情報が失われる。 可能であれば分布全体 (パーセンタイル分布) を確認し、 自分の位置を正確に把握することが最善である。 MyRank が提供するのは、まさにこの「分布の中の自分の位置」である。