BellCurve 統計WEB

  • Step1. 初級編
  • 2. 度数分布とヒストグラム

2-3. 階級幅の決め方

ヒストグラムを作る際に大事な点は、階級の幅(度数を集計するための区間の大きさ)をどのくらいの大きさにするかという点です。2-1章で使用した各都道府県内にある映画館のスクリーン数のデータを用いて2つのヒストグラムを作成してみました。

■階級の幅が200のヒストグラム

■階級の幅が18のヒストグラム

階級幅が200のヒストグラムでは、都道府県ごとのスクリーン数の分布がよく分かりません。一方、階級幅が18ののヒストグラムでは分布は分かるもののやや細か過ぎる印象を与えます。さらに階級の区切り方が中途半端であるため、階級値が分かりづらくなってしまっています。

階級の幅の決め方にルールはありませんが、グラフを一目見て分布の特徴が捉えられるようにすることが推奨されます。階級幅が大きすぎても、逆に小さすぎてもデータの大まかな分布が分かりづらくなってしまいます。階級幅の決め方で困った場合には、「スタージェスの公式」を使うこともできます。この式を使うと、目安となる階級の数が算出できます。

■スタージェスの公式

階級の数=\bf 1+log_{2}n  (nはデータ数)

例えば47都道府県のデータの場合、階級の数=1+log_{2}47=6.55\fallingdotseq7となり、2-1章で作成した度数分布表の階級の数である「8」とだいたい一致します。したがって、都道府県ごとのスクリーン数のデータのヒストグラムは8個の階級数で十分であることが分かります。





2. 度数分布とヒストグラム

事前に読むと理解が深まる- 学習内容が難しかった方に -

統計検定バナー 「統計学の時間」では、記事を最後まで読むことで、統計検定2級に合格する力が身につくことを目標としています。