BellCurve 統計WEB

  • Step1. 基礎編
  • 26. 相関分析

26-3. 相関係数

直線的な相関関係の強さを表す指標の一つに「相関係数(ピアソンの積率相関係数)」があります。2つの要素xとyからなるn個のデータ(x_{i}, y_{i} : i=1, 2,…, n)が得られたとき、その相関係数r_{xy}は次の式から算出されます。

 \displaystyle r_{xy}=\frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})^{2}} \times \sqrt{\displaystyle\frac{1}{n} \sum_{i=1}^{n} (y_{i}-\overline{y})^{2}}}

この式の分母はx、yそれぞれの標準偏差の積になっています。また、分子はxとyの「共分散」です。

共分散は、xとyそれぞれの平均値に対する、xとyのペアの値の散らばり方を表すものです。例えば、x_{1}-\overline{x}y_{1}-\overline{y}が共に正もしくは負である場合、(x_{1}-\overline{x})(y_{1}-\overline{y})>0となります。一方、x_{1}-\overline{x}y_{1}-\overline{y}が正と負もしくは負と正である場合、(x_{1}-\overline{x})(y_{1}-\overline{y})<0となります。この(x_{i}-\overline{x})(y_{i}-\overline{y})の平均値が共分散なので、共分散が正→xとyのペアの値が共に正もしくは負→相関係数が正の値となります。

相関係数rには次のような特徴があります。

  • rは-1から1までのいずれかの値をとる
  • |r|が1に近いほど相関が強く、0に近いほど相関が弱い
  • |r|が0に近くても、何らかの関係がある場合がある
  • rは単位を持たない値であり、データの単位がどのようなものであっても計算できる

いくつかの散布図とその相関係数を見てみます。相関係数は上から順に「-0.88」「0.50」「-0.30」です。

図1

図2

図3

次の散布図では相関係数は0.16とあまり高くありませんが、プロットを見てみると放物線を描いておりyはxの二次関数で表すことができそうです。

図4

相関係数は2つの要素の直線的な相関関係の強弱を表すものであり、線形ではない相関関係の強弱は正しく表すことができません。したがって、相関係数rが0に近い場合でも、いきなり「相関なし/相関が弱い」と判断せずにまずはプロットしたグラフを確認してみてください。xとyの間に何らかの関係がある場合に目視で捉えることができます。

■無相関の検定

標本から算出した相関係数を使って、母集団の相関係数が0かどうかを検定することを無相関の検定といいます。標本では相関がある場合に、母集団でも同様に相関があるかどうかを確認できます。帰無仮説は「母相関係数は0(無相関)である」です。

無相関の検定はt分布を用いて行います。次の式から算出される統計量tは自由度n-2のt分布に従います。rは標本から算出した相関係数、nはサンプルサイズを表します。

 \displaystyle t=\frac{|r|\sqrt{n-2}}{\sqrt{1-r^2}}

帰無仮説H_0が棄却された場合、「母相関係数は0ではない」すなわち、「2つの要素間で相関関係がある」と結論付けられます。

■母相関係数の信頼区間

母相関係数の信頼区間を求めるためには、まず次の式を用いて標本から算出した相関係数rを変換します。この変換を「フィッシャーのz変換」といいます。

 \displaystyle z=\frac{1}{2}\log\frac{1+r}{1-r}

同様に、母相関係数\rhoをz変換したものを\zetaとします。

 \displaystyle \zeta=\frac{1}{2}\log\frac{1+\rho}{1-\rho}

zはサンプルサイズnが大きい時には、平均\zeta、分散\displaystyle \frac{1}{n-3}の正規分布N(\zeta, \displaystyle \frac{1}{n-3})に従います。これらを用いてzを標準化すると次のようになります。

 \displaystyle \frac{z-\zeta}{\sqrt{\frac{1}{n-3}}}=\sqrt{n-3}(z-\zeta)

この値が標準正規分布N(0,1)に従うことから、(100(1-\alpha)\%)信頼区間は次のようになります。ただし、z_{\frac{\alpha}{2}}は標準正規分布における上側確率が\displaystyle \frac{\alpha}{2}となる値(z値)を表します。

 \displaystyle -z_{\frac{\alpha}{2}} \leq \sqrt{n-3}(z-\zeta) \leq z_{\frac{\alpha}{2}}
 \displaystyle z-z_{\frac{\alpha}{2}} \times \sqrt{\frac{1}{n-3}} \leq \zeta \leq z+z_{\frac{\alpha}{2}} \times \sqrt{\frac{1}{n-3}}

最後に、\zetaを母相関係数\rhoに戻します。z_Lz_Uを次のように置くと、

 \displaystyle z_L=z-z_{\frac{\alpha}{2}} \times \sqrt{\frac{1}{n-3}}
 \displaystyle z_U=z+z_{\frac{\alpha}{2}} \times \sqrt{\frac{1}{n-3}}

母相関係数\rhoの信頼区間は次のようになります。

 \displaystyle \frac{exp(2z_L)-1}{exp(2z_L)+1} \leq \rho \leq \frac{exp(2z_U)-1}{exp(2z_U)+1}

■おすすめ書籍

統計検定®2級の出題範囲には「散布図」、「共分散」、「相関係数」が含まれます。

created by Rinker
実務教育出版
¥664 (2024/12/03 17:20:23時点 Amazon調べ-詳細)
created by Rinker
¥1,980 (2024/12/03 17:20:23時点 Amazon調べ-詳細)

26. 相関分析

事前に読むと理解が深まる- 学習内容が難しかった方に -


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)