BellCurve 統計WEB

  • Step1. 初級編
  • 32. その他

32-1. 外れ値

外れ値とは、得られた観測値の中で真の値の推定値からの残差が異常に大きい値のことです。外れ値のうち、測定ミス・記入ミス等原因が分かっているものを「異常値」とよぶ場合があります。例えば、男性を「0」、女性を「1」で入力するアンケート調査に対して「2」が入力されていた場合、「2」が異常値となります。

外れ値の探索には次のような方法があります。なお外れ値が見つかった場合、目的に応じて除外したり、データを変換(対数変換など)を行ったりすることがあります。

  • 箱ひげ図を描く
  • 外れ値検定を行う
  • クラスター分析を行う

■箱ひげ図を描く

箱ひげ図を描いた場合、ひげの範囲から外れた値は外れ値とみなされます。

■外れ値検定を行う

「スミルノフ=グラブス検定」は外れ値を検出するための検定です。まず、平均値からもっとも遠い値を検定し外れ値かどうかを判断します。次に外れ値を除いたデータで外れ値検定を行い・・・を繰り返し外れ値が検出されなくなったら検定を終了します。

■クラスター分析を行う

クラスター分析を行った結果、データを1つしか含まないクラスターは他のデータからかけ離れている可能性が高いと考えられます。

外れ値であることが疑われるデータが見つかった場合、本当に外れ値かどうかを吟味することが重要です。例えば次のヒストグラムは、成人男女100人の中性脂肪の値を表したものです(架空のデータ)。赤丸のデータは外れ値のように見えますが、実際に取りうる中性脂肪の値であるため、この場合は外れ値として除外することはできません。

32. その他

統計検定バナー 「統計学の時間」では、記事を最後まで読むことで、統計検定2級に合格する力が身につくことを目標としています。