BellCurve 統計WEB

ブログ

外れ値と異常値

2017/08/19

カテゴリ:

※コラム「統計備忘録」の記事一覧はこちら


外れ値と異常値、どちらも英語の outlier の訳語として用いられています。外れ値とは、実験や調査で観測された値の中で、真の値の推定値*1からの残差*2が異常に大きい観測値のことです。同じ本の中で、外れ値と異常値を使い分けていることがありますが、この場合、外れ値の中でも外れ値となった理由があるものを異常値としています。例えば、子供の平熱を調べていたら風邪で熱を出している子が紛れ込んでしまったような場合です。

さて、どれくらいだと異常に大きいとみなすのかというと、正規分布するような値であれば、残差が標準偏差の 2倍から3倍以上あるときとすることが多いですね。確率的には、残差が標準偏差の 2倍以上とするなら4.6%程度、3倍以上とするなら 0.3%程度の出現率ということになります。エクセル統計では外れ値検定に含まれる「スミルノフ・グラブス検定」という手法を使って外れ値を検出できます。スミルノフ・グラブス検定では平均値から最も離れた観測値を選び、その残差をσで割った値を検定統計量とします。外れ値が見つかったら、これを除外して検定をやり直すということを続けていくと、外れ値の無いデータセットを作ることができます。ただし、スミルノフ・グラブス検定は正規分布を前提とした方法なので、正規分布からかけ離れた分布のデータに利用すると、観測値の殆どが外れ値になってしまうこともあるので注意してください。

残差の大きさを気にせず、無条件にデータの分布の両端から 5%とか 10%をカットして外れ値の混入を防ぐという方法もあります。この両端をカットして求めた平均値をトリム平均とか○○%調整平均と言います。トリム平均はExcelのTRIMMEAN関数を使って求めることができます。

以上の2つは機械的に外れ値を除くテクニックですが、外れ値を見つける最もポピュラーな方法としては、ヒストグラムによる判断があります。ヒストグラムの利点はデータの分布も同時に確認できることです。分布の中心が平均値よりも左側に偏り右裾の長い分布なら、外れ値を除外せず、すべてのデータを対数変換してみましょう。対数変換後のデータが正規分布になり外れ値も無いようであれば、対数変換したデータを使って推定や検定を行うことで分析の精度が上がります。

どの方法を使うにしても、外れ値を除くときは外れ値が異常値 abnormal value でないかチェックしておきましょう。計測の失敗や風邪による高熱など異常値であることが明らかなら、除外することに問題はありません。外れ値を異常値と判断する根拠が見つからないときは、安易に除外せず、平均値の代わりに中央値、ピアソンの相関係数の代わりに順位相関係数、検定ならノンパラメトリックな方法を利用するということも考えましょう。



*1 多くは平均値を指す
*2 真の値の推定値との差


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)