BellCurve 統計WEB

  • Step1. 初級編
  • 26. 相関分析

26-3. 相関係数

直線的な相関関係の強さを表す指標の一つに「相関係数」があります。2つの要素xとyからなるn個のデータ(x_{i}, y_{i} : i=1, 2,…, n)が得られたとき、その相関係数r_{xy}は次の式から算出されます。

 \displaystyle r_{xy}=\frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})^{2}} \times \sqrt{\displaystyle\frac{1}{n} \sum_{i=1}^{n} (y_{i}-\overline{y})^{2}}}

この式の分母はx、yそれぞれの標準偏差の積になっています。また、分子はxとyの「共分散」です。相関係数rには次のような特徴があります。

  • rは-1から1までのいずれかの値をとる
  • |r|が1に近いほど相関が強く、0に近いほど相関が弱い
  • |r|が0に近くても、何らかの関係がある場合がある

いくつかの散布図とその相関係数を見てみます。相関係数は上から順に「-0.88」「0.50」「-0.30」です。

図1

図2

図3

次の散布図では相関係数は0.16とあまり高くありませんが、プロットを見てみると放物線を描いておりyはxの二次関数で表すことができそうです。

図4

相関係数は2つの変数の直線的な相関関係の強弱を表すものであり、線形ではない相関関係の強弱は正しく表すことができません。したがって、相関係数rが0に近い場合でも、いきなり「相関なし/相関が弱い」と判断せずにまずはプロットしたグラフを確認してみてください。xとyの間に何らかの関係がある場合に目視で捉えることができます。

26. 相関分析