BellCurve 統計WEB

  • Step0. 初級編
  • 7. データの相関

7-2. データの相関を見てみよう

7-1章で、「参加匹数の多い競技ほど競技時間が長く、また怪我をした猫の数も多い傾向がある」ということが分かりました。具体的にどのくらい強い関係があるのかを見るために、この章では「相関係数」を求めてみます。

相関係数を求めるにあたって、まず2種類のデータのみをグラフに表してみます。データは7-1章に掲載したものを使います。

競技参加匹数競技時間(分)怪我した猫(匹)
玉入れ100204
綱引き150308
リレー50151
毛糸玉ころがし75255
にぼし食い競走60305
ムカデ競争125359
騎馬戦2004015

各競技の参加匹数と競技時間をプロットすると次のようになります。

このようなグラフは「散布図」とよばれ、x軸(横軸)で1つ目のデータを、y軸(縦軸)で2つ目のデータを表します。

ここで示したデータのように、横軸の値(参加匹数)が増加すると縦軸の値(競技時間)も増加するという関係がある場合には「正の相関関係がある」といいます。逆に、横軸の値が増加すると縦軸の値は減少するという関係がある場合には「負の相関関係がある」といいます。



では、いよいよ相関係数を求めてみます。2つの要素xとyからなるn個のデータが得られたとき、その相関関係の強弱を表す相関係数r_{xy}は次の式から求められます。

 \displaystyle r_{xy}=\frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})^{2}} \times \sqrt{\displaystyle\frac{1}{n} \sum_{i=1}^{n} (y_{i}-\overline{y})^{2}}}

nはサンプルの数を、x_iy_iはi番目のデータの値を、\overline{x}\overline{y}はxとyのデータの平均値を表します。また、\sum_{i=1}^{n}はi=1からi=nまでの値をすべて足したものということを意味します。

非常に複雑な式なので、実際の値を使って計算してみます。xを参加匹数、yを競技時間とします。それぞれの平均値は\overline{x}=108.6と\overline{y}=27.9です。

 \displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})^{2}= \frac{1}{7}\left\{ (100-108.6)^2+ (150-108.6)^2+ (50-108.6)^2+ (75-108.6)^2+ (60-108.6)^2+ (125-108.6)^2+ (200-108.6)^2 \right\} = \frac{1}{7} \times 17335.72 = 2476.53
 \displaystyle \frac{1}{n} \sum_{i=1}^{n} (y_{i}-\overline{y})^{2} = \frac{1}{7}\left\{ (20-27.9)^2+ (30-27.9)^2+ (15-27.9)^2+ (25-27.9)^2+ (30-27.9)^2+ (35-27.9)^2+ (40-27.9)^2 \right\} = \frac{1}{7} \times 485.72 = 69.39
 \displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})(y_{i}-\overline{y}) = \frac{1}{7}\left\{ (100-108.6)(20-27.9)+ (150-108.6)(30-27.9)+ (50-108.6)(15-27.9)+ (75-108.6)(25-27.9)+ (60-108.6)(30-27.9)+ (125-108.6)(35-27.9)+ (200-108.6)(40-27.9) \right\} = \frac{1}{7} \times 2128.58 = 304.08

これらの値を使うと、相関係数は

 \displaystyle r_{xy}=\frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\overline{x})^{2}} \times \sqrt{\displaystyle\frac{1}{n} \sum_{i=1}^{n} (y_{i}-\overline{y})^{2}}} = \frac{304.08}{\sqrt{2476.53 \times 69.39}} = 0.77

と計算できます。この結果から、参加匹数と競技時間の間には非常に強い相関があることが分かります。

2つのデータの間に強い正の相関があるほど相関係数は1に近づきます。逆に、強い負の相関があるほど相関係数は-1に近づきます。また、相関が弱い場合には相関係数は0に近づきます。

7. データの相関


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)