- Step1. 基礎編
- 26. 相関分析
26-3. 相関係数
直線的な相関関係の強さを表す指標の一つに「相関係数(ピアソンの積率相関係数)」があります。2つの要素xとyからなるn個のデータ(,
: i=1, 2,…, n)が得られたとき、その相関係数
は次の式から算出されます。
![Rendered by QuickLaTeX.com \displaystyle r_{xy}=\frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})^{2}} \times \sqrt{\displaystyle\frac{1}{n} \sum_{i=1}^{n} (y_{i}-\overline{y})^{2}}}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-f0bb616f6eee926b7a0ca6cccb783b86_l3.png)
この式の分母はx、yそれぞれの標準偏差の積になっています。また、分子はxとyの「共分散」です。
共分散は、xとyそれぞれの平均値に対する、xとyのペアの値の散らばり方を表すものです。例えば、と
が共に正もしくは負である場合、
となります。一方、
と
が正と負もしくは負と正である場合、
となります。この
の平均値が共分散なので、共分散が正→xとyのペアの値が共に正もしくは負→相関係数が正の値となります。
相関係数rには次のような特徴があります。
- rは-1から1までのいずれかの値をとる
- |r|が1に近いほど相関が強く、0に近いほど相関が弱い
- |r|が0に近くても、何らかの関係がある場合がある
- rは単位を持たない値であり、データの単位がどのようなものであっても計算できる
いくつかの散布図とその相関係数を見てみます。相関係数は上から順に「-0.88」「0.50」「-0.30」です。
![図1](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2016/12/795316b92fc766b0181f6fef074f03fa-8.png)
![図2](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2016/12/2b530e80c7d0de90885e285c5d798063-7.png)
![図3](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2016/12/c8856789ec11ab8b1013037cef6929f9-2.png)
次の散布図では相関係数は0.16とあまり高くありませんが、プロットを見てみると放物線を描いておりyはxの二次関数で表すことができそうです。
![図4](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2016/12/3a4f695a458cb0ac0aceaa2eb13ac2dd-2.png)
相関係数は2つの要素の直線的な相関関係の強弱を表すものであり、線形ではない相関関係の強弱は正しく表すことができません。したがって、相関係数rが0に近い場合でも、いきなり「相関なし/相関が弱い」と判断せずにまずはプロットしたグラフを確認してみてください。xとyの間に何らかの関係がある場合に目視で捉えることができます。
■無相関の検定
標本から算出した相関係数を使って、母集団の相関係数が0かどうかを検定することを無相関の検定といいます。標本では相関がある場合に、母集団でも同様に相関があるかどうかを確認できます。帰無仮説は「母相関係数は0(無相関)である」です。
無相関の検定はt分布を用いて行います。次の式から算出される統計量tは自由度n-2のt分布に従います。rは標本から算出した相関係数、nはサンプルサイズを表します。
![Rendered by QuickLaTeX.com \displaystyle t=\frac{|r|\sqrt{n-2}}{\sqrt{1-r^2}}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-09b71a087814d2d5596200d864cc878c_l3.png)
帰無仮説が棄却された場合、「母相関係数は0ではない」すなわち、「2つの要素間で相関関係がある」と結論付けられます。
■母相関係数の信頼区間
母相関係数の信頼区間を求めるためには、まず次の式を用いて標本から算出した相関係数rを変換します。この変換を「フィッシャーのz変換」といいます。
![Rendered by QuickLaTeX.com \displaystyle z=\frac{1}{2}\log\frac{1+r}{1-r}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-f7f46369fc411a101e1538a7044eb553_l3.png)
同様に、母相関係数をz変換したものを
とします。
![Rendered by QuickLaTeX.com \displaystyle \zeta=\frac{1}{2}\log\frac{1+\rho}{1-\rho}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-def7679480dc8c4973865283db502faf_l3.png)
zはサンプルサイズnが大きい時には、平均、分散
の正規分布
に従います。これらを用いてzを標準化すると次のようになります。
![Rendered by QuickLaTeX.com \displaystyle \frac{z-\zeta}{\sqrt{\frac{1}{n-3}}}=\sqrt{n-3}(z-\zeta)](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-1fd4b43c05206460c5ebfaca621bf19d_l3.png)
この値が標準正規分布N(0,1)に従うことから、信頼区間は次のようになります。ただし、
は標準正規分布における上側確率が
となる値(z値)を表します。
![Rendered by QuickLaTeX.com \displaystyle -z_{\frac{\alpha}{2}} \leq \sqrt{n-3}(z-\zeta) \leq z_{\frac{\alpha}{2}}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-5ea0ac902fd0bf0e3ae75bdf4a479114_l3.png)
![Rendered by QuickLaTeX.com \displaystyle z-z_{\frac{\alpha}{2}} \times \sqrt{\frac{1}{n-3}} \leq \zeta \leq z+z_{\frac{\alpha}{2}} \times \sqrt{\frac{1}{n-3}}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-c27cfc16e47324c7e0cbff5c18e534bb_l3.png)
最後に、を母相関係数
に戻します。
と
を次のように置くと、
![Rendered by QuickLaTeX.com \displaystyle z_L=z-z_{\frac{\alpha}{2}} \times \sqrt{\frac{1}{n-3}}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-c73fd59c5d269efc3ce712bcd7692c97_l3.png)
![Rendered by QuickLaTeX.com \displaystyle z_U=z+z_{\frac{\alpha}{2}} \times \sqrt{\frac{1}{n-3}}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-b855051e27e1098eb8fee77d93b04413_l3.png)
母相関係数の信頼区間は次のようになります。
![Rendered by QuickLaTeX.com \displaystyle \frac{exp(2z_L)-1}{exp(2z_L)+1} \leq \rho \leq \frac{exp(2z_U)-1}{exp(2z_U)+1}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-d94ee21f1e0ae75ae29372dbcdb06363_l3.png)
■おすすめ書籍
統計検定®2級の出題範囲には「散布図」、「共分散」、「相関係数」が含まれます。
26. 相関分析
事前に読むと理解が深まる- 学習内容が難しかった方に -
- ブログ
共分散は「n」で割る?「n-1」で割る?
- ブログ
幾つデータが必要か? - 相関係数の有意性検定
- ブログ
相関係数を視覚化する
- ブログ
外れ値と相関係数
- ブログ
平均への回帰、相関係数
- ブログ
無相関の検定 - 相関係数の有意性を検定する