BellCurve 統計WEB

  • Step1. 基礎編
  • 32. その他

32-1. 外れ値

外れ値とは、得られた観測値の中で真の値の推定値からの残差が異常に大きい値のことです。外れ値のうち、測定ミス・記入ミス等原因が分かっているものを「異常値」とよぶ場合があります。例えば、男性を「0」、女性を「1」で入力するアンケート調査に対して「2」が入力されていた場合、「2」が異常値となります。

外れ値の探索には次のような方法があります。なお外れ値が見つかった場合、目的に応じて除外したり、データ変換(対数変換など)を行ったりすることがあります。

  • 箱ひげ図を描く
  • 外れ値検定を行う
  • クラスター分析を行う

■箱ひげ図を描く

箱ひげ図を描いた場合、ひげの範囲から外れた値は外れ値とみなされます。4-3章で既に学んだように、ひげの上端は「第三四分位数+1.5×IQRより小さい最大値」を、ひげの下端は「第一四分位数-1.5×IQRより大きい最小値」を表しています。

■外れ値検定を行う

「スミルノフ=グラブス検定」は外れ値を検出するための検定です。まず、平均値からもっとも遠い値を検定し外れ値かどうかを判断します。次に外れ値を除いたデータで外れ値検定を行い・・・を繰り返し外れ値が検出されなくなったら検定を終了します。

■クラスター分析を行う

クラスター分析を行った結果、データを1つしか含まないクラスターは他のデータからかけ離れている可能性が高いと考えられます。

外れ値であることが疑われるデータが見つかった場合、本当に外れ値かどうかを吟味することが重要です。例えば次のヒストグラムは、成人男女100人の中性脂肪の値を表したものです(架空のデータ)。赤丸のデータは外れ値のように見えますが、実際に取りうる中性脂肪の値であるため、この場合は外れ値として除外することはできません。

32. その他

事前に読むと理解が深まる- 学習内容が難しかった方に -


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)