- Step0. 初級編
- 1. データの集計
1-1. データをとってみよう
■データのとり方のコツ
ここはとても頭の良い猫たちが暮らす島。たくさんの猫たちが幸せに暮らしています。
4月のある日―――暖かい日差しに誘われて"ねこ第1小学校"の新入猫と両親たちが集まってきました。今日は待ちに待った入学式です。今年の新入猫はなんと100匹。
下の表は、100匹の新入猫のデータです。でも―――
番号 | 名前 | 体長 | 体重 | 性別 | 毛色 | 兄弟姉妹 |
---|---|---|---|---|---|---|
1 | たま | 30㎝ | 1kg | メス | 白 | 兄、姉 |
2 | ぶち | 32㎝ | 1200g | オス | 白 | 妹3匹 |
3 | くろ | 28㎝ | 1.1kg | オス | 黒 | いません。 |
4 | みけ | 350㎜ | 1.5kg | メス | 茶 | 兄2匹、弟2匹 |
100 | ちび | 31㎝ | 1.4 | メス | 灰色 | 兄、姉、妹、妹 |
このデータは、残念ながらこのままでは集計や分析に使えそうもありません。単位がそろっていなかったり、全角文字と半角文字がごちゃまぜになっているからです。
そこで、次に書いた【データのとり方の極意】に従って書き直してみます。
- 1つのセル(表の中の1つ1つのはこのこと)には1つのデータを入れましょう。
- 足りないデータ(欠損値-けっそんち)や、おかしなデータ(外れ値-はずれち)がないか確認しましょう。
- 全角文字と半角文字とごちゃまぜにしないようにしましょう。
- データの単位は揃えましょう。
- 単位はセルの中ではなく、列名のセル(列の見出し部分)に書きましょう。
番号 | 名前 | 体長(cm) | 体重(kg) | 性別 | 毛色 | 兄 | 弟 | 姉 | 妹 |
---|---|---|---|---|---|---|---|---|---|
1 | たま | 30 | 1.0 | メス | 白 | 1 | 0 | 1 | 0 |
2 | ぶち | 32 | 1.2 | オス | 白 | 0 | 0 | 0 | 3 |
3 | くろ | 28 | 1.1 | オス | 黒 | 0 | 0 | 0 | 0 |
4 | みけ | 35 | 1.5 | メス | 茶 | 2 | 2 | 0 | 0 |
100 | ちび | 31 | 1.4 | メス | 灰色 | 1 | 0 | 1 | 2 |
書き直したデータを見てみると、元のデータと比べてすっきり見やすくなりました。このように、データをとるときにはデータの集計や分析がしやすくなるように心がけましょう。
■質的変数
このデータを見ると、2つの性質のデータが含まれていることが分ります。1つ目は名前や毛色など、性質を表すデータのことです。これを「質的変数」といいます。このほかに例えば次のようなものがあります。
- 住所
- 血液型
- 好きな食べ物
■量的変数
2つ目は「量的変数」です。これは数量を表す値のことで体長や体重、ひげの本数や今日食べたカリカリの数などがあてはまります。この中で兄弟姉妹の数のようにとびとびの値をとるものを「離散変数」、体長のようにすき間なく連続した値をとるものを「連続変数」といいます。
- 兄弟姉妹の数(離散変数)
- 筆箱に入っている鉛筆の数(離散変数)
- 体長(連続変数)
- 今日の気温(連続変数)