まだまだ外れ値が気になる
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※
前回までに単変量での外れ値の見つけ方を幾つか紹介しましたが、多変量における外れ値を確認する方法もあります。一番単純な方法としては、主成分分析を行って主成分得点を求め、主成分得点を散布図にプロットするなどして視覚化し、探索的に判断するといったテクニックがあります。数値化による判断としては、主成分得点や重回帰分析を利用して「てこ比」を求める、標本マハラノビス汎距離を求めカイ二乗分布から検定を行うなどがあります。
外れ値を見つけたときの対処は、外れ値が、測定の誤りやデータの入力ミス、被験者の特殊性などによる異常値でないか確認することから始めます。異常値であると確信が持てるようであれば、データから除いてしまっても許されるでしょう。異常値の確信を持てないとき、幾つかの対処法がありますが決定打はありません。ケースバイケースです。
探索的な研究であれば、中央値や順位相関係数を求める、検定ならマンホイットニーのU検定やクラスカル・ウォリス検定などのノンパラメトリック手法を用いるなどロバストな統計手法を利用するといった選択があります。
仮説検証的、実験的な研究であれば実験計画から見直す必要があるかもしれません。実験の場合、必要なサンプルサイズや検定の手法まで決めてから実験を行うのが正しい手続きですから、外れ値があったからといって安易にデータを除いたり検定手法を変更してしまったりすると、結果を自分に都合よく改竄したととられかねません。
明確にどこからが外れ値ということは決まっていませんから、外れ値の見つけ方も対処も様々です。とてもコラムでは書ききれないので、まだまだ外れ値が気になる方へ外れ値について書かれている本を二冊紹介します。
1冊はルイ・パストゥール医学研究センターの奥田千恵子氏が書かれた『医学研究者のためのケース別統計手法の学び方』です。「第5章 目障りな外れ値 ―棄却検定法と箱ひげ図」が参考になります。
もう1冊は心理学テキストライブラリーの第3巻、『Q&Aで知るデータ解析 第2版』です。「外れ値の扱い」、「多変量解析と外れ値」、「外れ値とてこ比」の3つのQ&Aが設けられています。どちらの本も入門書の次に買う本としてお薦めします。