- Step1. 基礎編
- 32. その他
32-1. 外れ値
外れ値とは、得られた観測値の中で真の値の推定値からの残差が異常に大きい値のことです。外れ値のうち、測定ミス・記入ミス等原因が分かっているものを「異常値」とよぶ場合があります。例えば、男性を「0」、女性を「1」で入力するアンケート調査に対して「2」が入力されていた場合、「2」が異常値となります。
外れ値の探索には次のような方法があります。なお外れ値が見つかった場合、目的に応じて除外したり、データ変換(対数変換など)を行ったりすることがあります。
- 箱ひげ図を描く
- 外れ値検定を行う
- クラスター分析を行う
■箱ひげ図を描く
箱ひげ図を描いた場合、ひげの範囲から外れた値は外れ値とみなされます。4-3章で既に学んだように、ひげの上端は「第三四分位数+1.5×IQRより小さい最大値」を、ひげの下端は「第一四分位数-1.5×IQRより大きい最小値」を表しています。
■外れ値検定を行う
「スミルノフ=グラブス検定」は外れ値を検出するための検定です。まず、平均値からもっとも遠い値を検定し外れ値かどうかを判断します。次に外れ値を除いたデータで外れ値検定を行い・・・を繰り返し外れ値が検出されなくなったら検定を終了します。
■クラスター分析を行う
クラスター分析を行った結果、データを1つしか含まないクラスターは他のデータからかけ離れている可能性が高いと考えられます。
外れ値であることが疑われるデータが見つかった場合、本当に外れ値かどうかを吟味することが重要です。例えば次のヒストグラムは、成人男女100人の中性脂肪の値を表したものです(架空のデータ)。赤丸のデータは外れ値のように見えますが、実際に取りうる中性脂肪の値であるため、この場合は外れ値として除外することはできません。
32. その他
事前に読むと理解が深まる- 学習内容が難しかった方に -
- ブログ
外れ値と相関係数
- ブログ
外れ値と異常値
- ブログ
外れ値の見つけ方
- ブログ
まだまだ外れ値が気になる