外れ値と相関係数
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※
外れ値の影響を受けやすいものの1つに相関係数があります。このことを確認するために簡単な実験をやってみましょう。
実験を行うにあたっては、Excelの分析ツールを使って乱数を発生させ、20個のデータを持つ 2つの変数、XとYを用意します。
Correl関数を使って 2変数間の相関係数を求めると、-0.02 とかなりゼロに近い値になりました。続いて、Excelのグラフ機能を利用して散布図を描きます。2変数が無相関であることが分かります。ついでに、グラフ・オプションの「近似曲線の追加」を利用して「直線」をあてはめ、視覚効果を高めておきましょう。
それでは、実験を始めます。最初に、散布図にプロットされた点を適当に1個選んでマウスのポインタを合わせクリックをします。そうすると次の図のように幾つかの点が反転した状態になります。
そのままポインタを動かさずにもう1回クリックすると、ポインタが十字の矢印に変わります。そうなったらクリックボタンを押したままグラフの端のほうにポインタを動かしましょう。端まで動かしたらクリックボタンから指を離してください。次の図のように、選択した1点だけが移動し、直線の傾きも点を移動した側へ偏っているはずです。
元のデータを見てみると、動かした点の座標データ(B17とC17のセル)もグラフに合わせて変わっています。この移動させた点が外れ値です。
外れ値の影響で、相関係数は、ほとんどゼロだったものが 0.37 まで上がっています。私はほぼ真上に点を移動させましたが、もし、右斜め上の方向へ点を移動させたなら(X,Yの両方とも外れ値であれば)、相関係数はさらに高くなっているはずです。
相関分析をする場合、相関係数だけを見ていると、外れ値によって相関が高くなっていても気がつきません。相関係数について無相関の検定をしても見破ることはできません。外れ値の影響をうけているかどうかは、このように散布図を作って視覚的に確認するのが一番です。
グラフを作らずに数字だけで判断したいというなら統計ソフトを利用して順位相関係数を求めてみましょう。このデータについて、エクセル統計を利用し、スピアマンの順位相関係数を求めてみると値は -0.04 となりXとYは無相関のままです。