BellCurve 統計WEB

ブログ

ビンの数と幅

2017/08/26

カテゴリ:

※コラム「統計備忘録」の記事一覧はこちら


量的データの度数分布をグラフにしたものをヒストグラムまたは柱状グラフと言います。Excelのグラフの種類にヒストグラムはないため、Excelで作るなら棒グラフを代用することになります。Excelの分析ツールにもヒストグラムのメニューがありますが、やはり棒グラフを代用してヒストグラムを書いています(分析ツールのヒストグラムは、コラムの最後に書いた理由によりお奨めできません)。

ヒストグラムの棒のことを英語ではbin(ビン)と言います。日本語版分析ツールのダイアログでは[データ区間]となっているところも、英語版では[bin range]となっています。ヒストグラムでは、このビンの数と幅をどう設定するかで見た目がずいぶん変わってしまいます。

Excelの分析ツール


まず、ビンの数(k)の決め方としては、スタージェスの公式を使ったものがよく知られています。Excelで求めるなら次の関数式を入力するだけです。n のところはデータの件数にしてください。

=LOG(n,2)+1

n が256なら k=9となります。端数がでたら切り上げてください。スタージェスの公式を使うと n が倍になるごとに1ずつ増えていくので n = 512 なら k = 10 です。スタージェスの公式以外にも n の平方根を使う方法もあります。ビンの幅( h )はデータの範囲(最大値-最小値)をビンの数で割った値です。

一方、ビンの幅( h )を決め、データの範囲をhで割ってビンの数( k )を求める方法もあります。スコットの選択(標準偏差の3.5倍を n の3乗根で割る)やフリードマン=ダイアコニスの選択(四分位範囲の2倍を n の3乗根で割る)などが知られています。

ビンの数と幅の決め方について、どんな場合にも有効な方法はありません。多くの統計ソフトはビンの数や幅をしなくとも自動で設定する機能がついているので、まずは、ソフトまかせでヒストグラムを作成してみてください。Excelの分析ツールでも、[データ区間]を指定しなくともヒストグラムを作成できます。

分析ツールのヒストグラム作成ダイアログ
(ヒストグラムを出力するためには[グラフ作成]のチェックが必要)




分析ツールにより作成した度数分布表とヒストグラム(最初と最後の級の頻度に誤りがある)



ただし、Excel分析ツールのヒストグラムはデータ区間(階級の区切り)にはデータ区間の上限値が設定されており、各データ区間の頻度は「前のデータ区間の上限値より大きく、そのデータ区間の上限値以下」のデータの数となります。日本でよく使われている度数分布の階級は「その階級の下限値以上、次の階級のの下限値未満」なので、このようにしたいなら統計Tipsで紹介した方法を用いるか、エクセル統計など統計ソフトの利用すお奨めします。

エクセル統計により作成した度数分布表とヒストグラム



エクセル統計では、ビンの幅と数の設定において公式を用いた設定のオプションが搭載されており、スコットの選択、フリードマン=ダイアコニスの選択、スタージェスの公式、平方根選択の4種から選べます。