BellCurve 統計WEB

  • Step0. 初級編
  • 7. データの相関

7-3. データの相関に注意しよう

相関係数を扱うときにはいくつかの注意点があります。ここでは、そのうち特に重要な3つのポイントについて詳しく説明します。

■1. 外れ値がある場合

「外れ値」とは、他のデータと比べて大きく外れた値のことです。例えば、次の「玉入れで入れた玉の数」と「毛糸玉ころがしでかかった時間」のデータをプロットしてみます。

チーム玉入れ(個)毛糸玉ころがし(秒)
赤組69250
青組58240
黄組55480
緑組67230
白組62260


このデータから相関係数を求めると-0.69となり、強い負の相関があることが分かります。しかしこのグラフを見ると、1つだけ大きく外れた点があるようです。「黄組」の毛糸玉ころがしでかかった時間です。実は、毛糸玉を転がしている途中で毛糸がほどけて黄組の猫たちに絡まってしまい、なかなかゴールできないというハプニングがあったのです。

そこで「黄組」のデータを外して残りの4組のデータのみを用いて相関係数を求めると、-0.10となります。5組のデータを使ったときよりも相関係数の値が小さくなりました。

このように、データに含まれる外れ値が相関係数の値に影響を及ぼしている場合があります。そのため、相関係数を求めるときにはまず散布図を作り、外れ値がないか等データの特徴を確認するようにしましょう。

■2. 元データを加工した場合

上で用いたデータのうち「毛糸玉ころがしでかかった時間」を「分」表記に変更してみました。

チーム玉入れ(個)毛糸玉ころがし(分)
赤組694.17
青組584.00
黄組558.00
緑組673.83
白組624.33

このデータから相関係数を求めると-0.69となります。この結果から分かるように、元のデータの単位を変えても相関係数は変化しません。

次に、「玉入れで入れた玉の数」に10を足したデータを使ってみます。

チーム玉入れ(個)毛糸玉ころがし(秒)
赤組79250
青組68240
黄組65480
緑組77230
白組72260

このデータから求めた相関係数もやはり-0.69となります。このように、元のデータにある値を一律で足した場合でも相関係数は変化しません。

「玉入れで入れた玉の数」に2をかけたデータを使ってみます。

チーム玉入れ(個)毛糸玉ころがし(秒)
赤組138250
青組116240
黄組110480
緑組134230
白組124260

このデータを用いても相関係数は-0.69となります。このように、元のデータにある値を一律でかけた場合でも相関係数は変化しません。

最後に、「玉入れで入れた玉の数」に-1をかけたデータを使ってみます。

チーム玉入れ(個)毛糸玉ころがし(秒)
赤組-69250
青組-58240
黄組-55480
緑組-67230
白組-62260

このデータから相関係数を求めると0.69となります。このように2つのデータのうちどちらかの元データにある負の値を一律でかけた場合には相関係数の正負が逆転します。

ちなみに、両方のデータにある負の値を一律でかけた場合には、相関係数の正負は逆転しません。

■3. 直線関係ではない相関がある場合

次のデータは「ムカデ競争でころんだ猫の数」と「騎馬戦ではちまきを取った数(勝数)」をまとめたものです。このデータをプロットしてみます。

学年ムカデ競走(匹)騎馬戦(勝)
1年生115
2年生211
3年生53
4年生102
5年生138
6年生1724


このデータから相関係数を求めると、0.30となります。しかしこのグラフを見ると、二次関数的な関係があることが分かります。

相関係数は2つのデータによる直線的な相関関係の強さを表すものであり、線形ではない場合には相関関係の強弱は正しく表すことができません。したがって、いきなり相関係数を計算するのではなく、まずはデータをプロットした散布図を確認するようにしましょう。

7. データの相関


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)