外れ値の見つけ方
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※
外れ値を見つける方法としてスミルノフ・グラブス検定があると前回書きましたが、スミルノフ・グラブス検定は正規分布にしか適さない方法です。もう少し汎用性がある方法として、IQRを利用した方法があります。
IQRは第三四分位数(=75パーセンタイル)から第一四分位数(=25パーセンタイル)を引いた値です。日本語では四分位範囲と訳されています。箱ひげ図の箱の長さにあたる部分です。
Excelを使ってIQRを求めるならQUARTILE関数を使って簡単に計算できます。
=QUARTILE(データの範囲,3)-QUARTILE(データの範囲,1)
次に、第三四分位数にIQRの1.5倍を足した値を求めます。この値以上のデータを外れ値とします。
また、第一四分位数からIQRの1.5倍を引いた値を求めます。この値以下のデータも外れ値とします。
データが完全に正規分布をしている場合、IQRは標準偏差(SD)×1.35です。第三四分位数は平均値+SD×0.67ですから、これにIQRの1.5倍を足した平均値+SD×2.70が上側の外れ値の分かれ目となります。
エクセル統計で出力した箱ひげ図上では、外れ値は×印で表示されます。