BellCurve 統計WEB

ブログ

外れ値の見つけ方

2017/08/19

カテゴリ:

※コラム「統計備忘録」の記事一覧はこちら


外れ値を見つける方法としてスミルノフ・グラブス検定があると前回書きましたが、スミルノフ・グラブス検定は正規分布にしか適さない方法です。もう少し汎用性がある方法として、IQRを利用した方法があります。

IQRは第三四分位数(=75パーセンタイル)から第一四分位数(=25パーセンタイル)を引いた値です。日本語では四分位範囲と訳されています。箱ひげ図の箱の長さにあたる部分です。

Excelを使ってIQRを求めるならQUARTILE関数を使って簡単に計算できます。

 =QUARTILE(データの範囲,3)-QUARTILE(データの範囲,1)

次に、第三四分位数にIQRの1.5倍を足した値を求めます。この値以上のデータを外れ値とします。

また、第一四分位数からIQRの1.5倍を引いた値を求めます。この値以下のデータも外れ値とします。

データが完全に正規分布をしている場合、IQRは標準偏差(SD)×1.35です。第三四分位数は平均値+SD×0.67ですから、これにIQRの1.5倍を足した平均値+SD×2.70が上側の外れ値の分かれ目となります。




エクセル統計で出力した箱ひげ図上では、外れ値は×印で表示されます。


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)