- Step0. 初級編
- 7. データの相関
7-3. データの相関に注意しよう
相関係数を扱うときにはいくつかの注意点があります。ここでは、そのうち特に重要な3つのポイントについて詳しく説明します。
■1. 外れ値がある場合
「外れ値」とは、他のデータと比べて大きく外れた値のことです。例えば、次の「玉入れで入れた玉の数」と「毛糸玉ころがしでかかった時間」のデータをプロットしてみます。
チーム | 玉入れ(個) | 毛糸玉ころがし(秒) |
---|---|---|
赤組 | 69 | 250 |
青組 | 58 | 240 |
黄組 | 55 | 480 |
緑組 | 67 | 230 |
白組 | 62 | 260 |
このデータから相関係数を求めると-0.69となり、強い負の相関があることが分かります。しかしこのグラフを見ると、1つだけ大きく外れた点があるようです。「黄組」の毛糸玉ころがしでかかった時間です。実は、毛糸玉を転がしている途中で毛糸がほどけて黄組の猫たちに絡まってしまい、なかなかゴールできないというハプニングがあったのです。
そこで「黄組」のデータを外して残りの4組のデータのみを用いて相関係数を求めると、-0.10となります。5組のデータを使ったときよりも相関係数の値が小さくなりました。
このように、データに含まれる外れ値が相関係数の値に影響を及ぼしている場合があります。そのため、相関係数を求めるときにはまず散布図を作り、外れ値がないか等データの特徴を確認するようにしましょう。
■2. 元データを加工した場合
上で用いたデータのうち「毛糸玉ころがしでかかった時間」を「分」表記に変更してみました。
チーム | 玉入れ(個) | 毛糸玉ころがし(分) |
---|---|---|
赤組 | 69 | 4.17 |
青組 | 58 | 4.00 |
黄組 | 55 | 8.00 |
緑組 | 67 | 3.83 |
白組 | 62 | 4.33 |
このデータから相関係数を求めると-0.69となります。この結果から分かるように、元のデータの単位を変えても相関係数は変化しません。
次に、「玉入れで入れた玉の数」に10を足したデータを使ってみます。
チーム | 玉入れ(個) | 毛糸玉ころがし(秒) |
---|---|---|
赤組 | 79 | 250 |
青組 | 68 | 240 |
黄組 | 65 | 480 |
緑組 | 77 | 230 |
白組 | 72 | 260 |
このデータから求めた相関係数もやはり-0.69となります。このように、元のデータにある値を一律で足した場合でも相関係数は変化しません。
「玉入れで入れた玉の数」に2をかけたデータを使ってみます。
チーム | 玉入れ(個) | 毛糸玉ころがし(秒) |
---|---|---|
赤組 | 138 | 250 |
青組 | 116 | 240 |
黄組 | 110 | 480 |
緑組 | 134 | 230 |
白組 | 124 | 260 |
このデータを用いても相関係数は-0.69となります。このように、元のデータにある値を一律でかけた場合でも相関係数は変化しません。
最後に、「玉入れで入れた玉の数」に-1をかけたデータを使ってみます。
チーム | 玉入れ(個) | 毛糸玉ころがし(秒) |
---|---|---|
赤組 | -69 | 250 |
青組 | -58 | 240 |
黄組 | -55 | 480 |
緑組 | -67 | 230 |
白組 | -62 | 260 |
このデータから相関係数を求めると0.69となります。このように2つのデータのうちどちらかの元データにある負の値を一律でかけた場合には相関係数の正負が逆転します。
ちなみに、両方のデータにある負の値を一律でかけた場合には、相関係数の正負は逆転しません。
■3. 直線関係ではない相関がある場合
次のデータは「ムカデ競争でころんだ猫の数」と「騎馬戦ではちまきを取った数(勝数)」をまとめたものです。このデータをプロットしてみます。
学年 | ムカデ競走(匹) | 騎馬戦(勝) |
---|---|---|
1年生 | 1 | 15 |
2年生 | 2 | 11 |
3年生 | 5 | 3 |
4年生 | 10 | 2 |
5年生 | 13 | 8 |
6年生 | 17 | 24 |
このデータから相関係数を求めると、0.30となります。しかしこのグラフを見ると、二次関数的な関係があることが分かります。
相関係数は2つのデータによる直線的な相関関係の強さを表すものであり、線形ではない場合には相関関係の強弱は正しく表すことができません。したがって、いきなり相関係数を計算するのではなく、まずはデータをプロットした散布図を確認するようにしましょう。