BellCurve 統計WEB

  • Step0. 初級編
  • 1. データの集計

1-1. データをとってみよう

■データのとり方のコツ

ここはとても頭の良い猫たちが暮らす島。たくさんの猫たちが幸せに暮らしています。

4月のある日―――暖かい日差しに誘われて"ねこ第1小学校"の新入猫と両親たちが集まってきました。今日は待ちに待った入学式です。今年の新入猫はなんと100匹。

下の表は、100匹の新入猫のデータです。でも―――

番号名前体長体重性別毛色兄弟姉妹
1たま30㎝1kgメス兄、姉
2ぶち32㎝1200gオス妹3匹
3くろ28㎝1.1kgオスいません。
4みけ350㎝1.5kgメス兄2匹、弟2匹
\vdots\vdots\vdots\vdots\vdots\vdots\vdots
100ちび31㎝1.4メス灰色兄、姉、妹、妹

このデータは、残念ながらこのままでは集計や分析に使えそうもありません。単位がそろっていなかったり、全角文字と半角文字がごちゃまぜになっているからです。

そこで、次に書いた【データのとり方の極意】に従って書き直してみます。

  • 1つのセル(表の中の1つ1つのはこのこと)には1つのデータを入れましょう。
  • 足りないデータ(欠損値-けっそんち)や、おかしなデータ(外れ値-はずれち)がないか確認しましょう。
  • 全角文字と半角文字とごちゃまぜにしないようにしましょう。
  • データの単位は揃えましょう。
  • 単位はセルの中ではなく、列名のセル(列の見出し部分)に書きましょう。

番号名前体長(cm)体重(kg)性別毛色
1たま301.0メス1010
2ぶち321.2オス0003
3くろ281.1オス0000
4みけ351.5メス2200
\vdots\vdots\vdots\vdots\vdots\vdots\vdots\vdots\vdots\vdots
100ちび311.4メス灰色1012

※「みけ」の体長は、データを再確認すると35㎝の間違いだったようです。

書き直したデータを見てみると、元のデータと比べてすっきり見やすくなりました。このように、データをとるときにはデータの集計や分析がしやすくなるように心がけましょう。

■質的変数

このデータを見ると、2つの性質のデータが含まれていることが分ります。1つ目は名前や毛色など、性質を表すデータのことです。これを「質的変数」といいます。このほかに例えば次のようなものがあります。

  • 住所
  • 血液型
  • 好きな食べ物

■量的変数

2つ目は「量的変数」です。これは数量を表す値のことで体長や体重、ひげの本数や今日食べたカリカリの数などがあてはまります。この中で兄弟姉妹の数のようにとびとびの値をとるものを「離散変数」、体長のようにすき間なく連続した値をとるものを「連続変数」といいます。

  • 兄弟姉妹の数(離散変数)
  • 筆箱に入っている鉛筆の数(離散変数)
  • 体長(連続変数)
  • 今日の気温(連続変数)

1. データの集計