- Step0. 初級編
- 6. データの標準化
6-2. データを標準化してみよう
体力テストが終わったことにほっとした「しま」の横で、「くろ」と「みけ」はどちらの成績が良かったのかをあーでもないこーでもないと言い合っているようです。そこで、もう一度6-1章の成績表を見直してみることになりました。
競技名 | くろ | しま | みけ |
---|---|---|---|
ボール投げ | 2 | 3 | 4 |
走り幅跳び | 10 | 5 | 6 |
50m走 | 9 | 4 | 5 |
高跳び | 5 | 3 | 8 |
木登り | 5 | 4 | 10 |
また、次の表はくろ、しま、みけを含む1年生100匹全員の成績から計算した平均値と標準偏差です。
競技名 | 平均 | 標準偏差 |
---|---|---|
ボール投げ | 4 | 2 |
走り幅跳び | 6 | 1 |
50m走 | 5.5 | 1.2 |
高跳び | 5 | 0.8 |
木登り | 4.5 | 3 |
こんな時に使うのが「標準化」というデータの変換方法です。データを標準化すると、標準化したデータの平均は0に、分散(標準偏差も)は1になります。これにより、異なる項目のデータであってもその大小を比較できるようになります。すなわち、大きければ大きいほど成績が良いことを表します。
標準化は次の式から行います。は元のデータを、は平均値を、は標準偏差を表します。
例えば、「くろ」の「ボール投げ」のデータは次のように標準化できます。
同様にしてすべてのデータを標準化すると次のようになります。
競技名 | くろ | しま | みけ |
---|---|---|---|
ボール投げ | -1.0 | -0.5 | 0 |
走り幅跳び | 4.0 | -1.0 | 0 |
50m走 | 2.9 | -1.3 | -0.4 |
高跳び | 0 | -2.5 | 3.8 |
木登り | 0.2 | -0.2 | 1.8 |
この結果を見ると、すべての競技の中で最も成績が良かったのは「くろ」の「走り幅跳び」の結果でした。