- Step1. 基礎編
- 5. データの集計と表現
5-1. データの集計について
統計学では、様々なデータを集計したり分析したりします。しかしながら、手元にあるデータがどのようなものなのかは数字の羅列を見ただけではよく分かりません。このような場合には、「データを可視化する」、つまり一目見てデータの分布や特徴をつかめるようにすることが重要です。
■質的データの場合
得られたデータが質的データの場合、データの可視化にあたってはまずデータを「集計」します。集計とは、項目ごとにデータを数えたり合計したりした結果をまとめることで、集計したデータを用いて棒グラフや円グラフなどを作成することができます。
例えば、次に示す「あるクラス30人の好きなスポーツ」のデータについて考えてみます。
野球 | サッカー | 野球 | テニス | 野球 |
野球 | テニス | サッカー | サッカー | テニス |
サッカー | 水泳 | サッカー | サッカー | サッカー |
サッカー | テニス | 水泳 | 水泳 | 野球 |
野球 | 野球 | 野球 | サッカー | サッカー |
サッカー | サッカー | テニス | テニス | テニス |
このデータを集計するにはまずすべての項目をピックアップします。そして、それぞれの項目の個数をカウントします。
スポーツ | 人数(人) |
---|---|
サッカー | 12 |
野球 | 8 |
テニス | 7 |
水泳 | 3 |
■量的データの場合
量的データを得た場合、まず平均値、最小値・最大値などの「基本統計量」を求めます。箱ひげ図を作成すると、四分位数に加えてデータのバラつきを捉えることができます。また、ヒストグラムを作成すると、データの分布を確認することができます。
例えば、「あるクラス30人の国語の点数」のデータから箱ひげ図とヒストグラムを作成すると次のようになります。
64 | 56 | 51 | 77 | 45 | 73 | 64 | 44 | 69 | 66 |
63 | 53 | 83 | 72 | 58 | 68 | 66 | 74 | 62 | 60 |
44 | 48 | 47 | 78 | 54 | 59 | 48 | 57 | 58 | 71 |