- Step0. 初級編
- 1. データの集計
1-3. データからグラフを作ってみよう2
■量的変数の集計―――度数分布表の書き方
次に、ねこ第1小学校の新入猫100匹のデータを使って量的変数を集計してみましょう。量的変数の集計には「度数分布表」というものがよく使われます。例えば、体長のデータを使って度数分布表を作ると次のようになります。
階級(cm以上~cm未満) | 階級値(cm) | 度数 | 相対度数 | 累積相対度数 |
---|---|---|---|---|
26~28 | 27 | 5 | 5% | 5% |
28~30 | 29 | 10 | 10% | 15% |
30~32 | 31 | 30 | 30% | 45% |
32~34 | 33 | 35 | 35% | 80% |
34~36 | 35 | 20 | 20% | 100% |
- 「階級」は度数を集計するための区間を表します。この度数分布表の場合、2cm刻みの階級が合計5つあることが分かります。
- 「階級値」はその階級を代表する値のことで、階級の真ん中の値のことです。例えば体長が「26cm以上28cm未満」の階級であれば、階級値は真ん中の「27cm」です。
- 「度数」は各階級に含まれるデータ数を表します。例えば体長が「26cm以上28cm未満」の階級であれば、度数は「5」です。
- 「相対度数」は各階級の度数が全体に占める割合のことです。体長が「26cm以上28cm未満」の階級であれば「(5÷100)×100=5%」となります。
- 「累積相対度数」はその階級までの相対度数の全ての和(累積和)のことです。「26cm以上28cm未満」の階級はそのまま「5%」ですが、「28cm以上30cm未満」の階級は「5%+10%=15%」、「30cm以上32cm未満」の階級は「5%+10%+30%=45%」となります。
■度数分布表の作り方の極意
見やすくて使い勝手の良い度数分布表を作るにあたっては、次に示す【度数分布表の作り方の極意】を参考にしてみてください。
- 階級の区切りは分かりやすい値を使いましょう。例えば「26.9cm以上27.3cm未満」といった変な区切りを使うとデータの把握が難しくなります。
- 階級の区切りは等間隔にしておきましょう。等間隔のほうがデータを理解しやすくなります。
- 階級の区切りの大きさや数には決まりがありませんので、データの分布をよく反映するものを選びましょう。例えば次に示す度数分布表を作ってしまうと、データの特徴が分かりづらくなってしまいます。
階級(cm以上~cm未満) 階級値(cm) 度数 相対度数 累積相対度数 24~30 27 15 15% 15% 30~36 33 85 85% 100%
■度数分布表の読み方
冒頭に記載した度数分布表を使うと、次のようなことが読み取れます。
- 一番度数が大きい階級は、体長が「32cm以上34cm未満」の階級です。
- 体長が一番小さい階級は「26cm以上28㎝未満」の階級なので、新入猫100匹の中で26㎝未満の猫はいないことが分ります。
- 100匹の新入猫を体長が小さい順に並べた場合、ちょうど真ん中(50番目)の猫の体長は「32cm以上34cm未満」と考えられます。これは、累積相対度数が50%を超える階級が「32cm以上34cm未満」の階級だからです。
■ヒストグラム
度数分布表が出来上がると、「ヒストグラム」を使ってグラフを描くことができます。横軸が体長の階級を、縦軸が度数を表しています。ヒストグラムを見ると、体長32㎝~34㎝あたりを中心にしてデータが大きな1つの山を作っていることが分ります。