📊 統計・データ

データ可視化の罠 - グラフが嘘をつく 5 つの手法

3 分で読める

グラフが嘘をつく方法

Edward Tufte は著書 "The Visual Display of Quantitative Information" で、 データの視覚的表現が意図的または無意図的に読者を欺う手法を体系化した。 最も一般的な手法は Y 軸の切断 (truncation) である。 Y 軸をゼロから始めず途中から始めることで、わずかな差を劇的に見せることができる。

たとえば、A 社の売上 100 億円と B 社の 95 億円を比較するとき、 Y 軸を 0 から始めれば差はほとんど見えないが、 Y 軸を 90 から始めれば A 社の棒グラフは B 社の 2 倍の高さになる。 5% の差が視覚的には 100% の差に見える。 ランキングデータの可視化でも同様の操作が行われることがある。

スケールの選択が印象を操作する

線形スケールと対数スケールの選択は、同じデータから全く異なる印象を生む。 COVID-19 の感染者数推移を線形スケールで表示すると「爆発的増加」に見えるが、 対数スケールでは「一定の増加率」に見える。 どちらも事実だが、伝えるメッセージは正反対である。

所得分布のグラフも同様だ。線形スケールでは上位層の所得が グラフの大部分を占め、下位層の差は見えなくなる。 対数スケールでは全体の分布が見やすくなるが、 上位層と下位層の「絶対的な差」の大きさが過小表現される。 スケールの選択は中立的ではなく、常に何かを強調し何かを隠す。

チェリーピッキング - 都合の良い期間の切り取り

時系列データの表示期間を恣意的に選ぶことで、 上昇トレンドも下降トレンドも「証明」できる。 株価が 2020 年 3 月 (コロナ暴落) から 2021 年 12 月までを表示すれば 「驚異的な回復」に見え、2021 年 12 月から 2022 年 12 月を表示すれば 「深刻な下落」に見える。

ランキングの経時変化を見る際も同様の注意が必要だ。 「日本の順位が 10 年で 5 位下がった」という主張は、 起点と終点の選び方で容易に操作できる。 長期トレンドを評価するには、十分に長い期間を取り、 起点と終点が特異な年でないことを確認する必要がある。

3D グラフと面積の錯覚

3D 円グラフや 3D 棒グラフは、遠近法により手前の要素が大きく、 奥の要素が小さく見える。これは純粋に視覚的な錯覚であり、 データの正確な比較を妨げる。Tufte はこれを「チャートジャンク」と呼び、 情報伝達に寄与しない装飾として批判した。

バブルチャート (円の面積でデータを表現) も直感的な誤解を招きやすい。 人間は面積の比較が苦手であり、半径が 2 倍の円を「2 倍大きい」と感じるが、 実際の面積は 4 倍である。データの可視化において、 位置 (散布図) や長さ (棒グラフ) による表現のほうが 面積や角度 (円グラフ) より正確に知覚される。

ランキング表示のデザイン倫理

MyRank のようなランキングツールは、データの表示方法によって ユーザーの感情と行動に影響を与える。 「上位 25%」を赤色で表示するか緑色で表示するかで、 同じ数字に対する感情的反応は変わる。 プログレスバーの長さ、数字のフォントサイズ、比較対象の選択、 すべてがユーザーの解釈を方向づける。

誠実なデータ可視化の原則は、データを正確に表現し、 読者が自分で判断できる情報を提供することである。 印象操作ではなく理解の促進を目的とし、 不確実性を隠さず、文脈を提供し、複数の視点を示す。 ランキングの数字を見る側も、表示方法が印象に与える影響を 意識することで、より冷静な判断が可能になる。

関連記事

関連用語

この記事は役に立ちましたか?