BellCurve 統計WEB

  • Step0. 初級編
  • 1. データの集計

1-3. データからグラフを作ってみよう2

■量的変数の集計―――度数分布表の書き方

次に、ねこ第1小学校の新入猫100匹のデータを使って量的変数を集計してみましょう。量的変数の集計には「度数分布表」というものがよく使われます。例えば、体長のデータを使って度数分布表を作ると次のようになります。

階級(cm以上~cm未満)階級値(cm)度数相対度数累積相対度数
26~282755%5%
28~30291010%15%
30~32313030%45%
32~34333535%80%
34~36352020%100%

  • 「階級」は度数を集計するための区間を表します。この度数分布表の場合、2cm刻みの階級が合計5つあることが分かります。
  • 「階級値」はその階級を代表する値のことで、階級の真ん中の値のことです。例えば体長が「26cm以上28cm未満」の階級であれば、階級値は真ん中の「27cm」です。
  • 「度数」は各階級に含まれるデータ数を表します。例えば体長が「26cm以上28cm未満」の階級であれば、度数は「5」です。
  • 「相対度数」は各階級の度数が全体に占める割合のことです。体長が「26cm以上28cm未満」の階級であれば「(5÷100)×100=5%」となります。
  • 「累積相対度数」はその階級までの相対度数の全ての和(累積和)のことです。「26cm以上28cm未満」の階級はそのまま「5%」ですが、「28cm以上30cm未満」の階級は「5%+10%=15%」、「30cm以上32cm未満」の階級は「5%+10%+30%=45%」となります。

■度数分布表の作り方の極意

見やすくて使い勝手の良い度数分布表を作るにあたっては、次に示す【度数分布表の作り方の極意】を参考にしてみてください。

  • 階級の区切りは分かりやすい値を使いましょう。例えば「26.9cm以上27.3cm未満」といった変な区切りを使うとデータの把握が難しくなります。
  • 階級の区切りは等間隔にしておきましょう。等間隔のほうがデータを理解しやすくなります。
  • 階級の区切りの大きさや数には決まりがありませんので、データの分布をよく反映するものを選びましょう。例えば次に示す度数分布表を作ってしまうと、データの特徴が分かりづらくなってしまいます。

    階級(cm以上~cm未満)階級値(cm)度数相対度数累積相対度数
    24~30271515%15%
    30~36338585%100%

■度数分布表の読み方

冒頭に記載した度数分布表を使うと、次のようなことが読み取れます。

  • 一番度数が大きい階級は、体長が「32cm以上34cm未満」の階級です。
  • 体長が一番小さい階級は「26cm以上28㎝未満」の階級なので、新入猫100匹の中で26㎝未満の猫はいないことが分ります。
  • 100匹の新入猫を体長が小さい順に並べた場合、ちょうど真ん中(50番目)の猫の体長は「32cm以上34cm未満」と考えられます。これは、累積相対度数が50%を超える階級が「32cm以上34cm未満」の階級だからです。

■ヒストグラム

度数分布表が出来上がると、「ヒストグラム」を使ってグラフを描くことができます。横軸が体長の階級を、縦軸が度数を表しています。ヒストグラムを見ると、体長32㎝~34㎝あたりを中心にしてデータが大きな1つの山を作っていることが分ります。

1. データの集計