5-1. データのばらつきを計算してみよう | 統計学の時間 | 統計WEB

BellCurve 統計WEB

  • Step0. 初級編
  • 5. データのばらつき

5-1. データのばらつきを計算してみよう

真っ青な空に真っ白な入道雲が浮かぶ8月―――一年で一番の大イベント、夏休みが始まりました。どっさりと机に積まれた宿題なんて何のその。皆朝早くから夜遅くまで気ままに活動しているようです。今日はそんな猫たちの一日を少しだけ覗いてみます。

【朝はラジオ体操】朝6時半から始まるラジオ体操は、校区内の様々な場所で行われています。次の表は山のふもと町内の2つの公園で行われているラジオ体操の参加数をまとめたものです。

日付ねこじゃらし公園またたび公園
8月1日4050
8月2日3530
8月3日3060
8月4日2525
8月5日3065

比較のため、2つの公園における1日当たりの参加数の平均値を求めてみます。

ねこじゃらし公園またたび公園
平均3246

この結果より、ねこじゃらし公園のほうが平均参加数が多いことが確認できます。次に、このデータからグラフを作ってみます。時系列のデータなので、3-2章で学んだ折れ線グラフを使います。

この図を見ると、ねこじゃらし公園に比べてまたたび公園の参加数は日によってかなりばらつきがあることが分かります。このばらつきを表すための値が「分散」と「標準偏差」です。ばらつきが大きいほど、「分散」も「標準偏差」も大きな値をとります。

■分散の求め方

分散は次の手順に従って求めます。

  1. 各データと平均値の差を求める
  2. 1で求めた値を2乗する
  3. 2で求めた値をすべて足す
  4. 3で求めた値をサンプルの数で割る

まず、ねこじゃらし公園の参加数の分散を求めてみます。

日付ねこじゃらし公園1. 各データと平均値の差2. (各データと平均値の差)の2乗
8月1日4040-32=882=64
8月2日3535-32=332=9
8月3日3030-32=-2(-2)2=4
8月4日2525-32=-7(-7)2=49
8月5日3030-32=-2(-2)2=4

3. (各データと平均値の差)の2乗の和=64+9+4+49+4=130

4. ねこじゃらし公園の参加数の分散=130÷5=26 となります。


次に、またたび公園の参加数の分散を求めてみます。今度は式を使って計算してみます。

またたび公園の参加数の分散={(50-46)2+(30-46)2+(60-46)2+(25-46)2+(65-46)2}÷5

={42+(-16)2+142+(-21)2+(19)2}÷5

={16+256+196+441+361}÷5

=1270÷5=254 となります。

■標準偏差の求め方

標準偏差は次の手順に従って求めます。

  1. 分散を求める
  2. 1で求めた値のルート(正の平方根)をとる

ねこじゃらし公園の参加数の標準偏差=√26=5.1

またたび公園の参加数の標準偏差=√254=15.9


ここまでの結果をまとめると次のようになります。この結果を見ても、またたび公園の参加数のほうがばらつきが大きいことが分かります。

ねこじゃらし公園またたび公園
分散3246
標準偏差5.115.9

上に書いた式からも分かるように、分散も標準偏差もどちらも必ず0以上の値をとります。すべてのデータが平均値である場合(すべてのデータが同じである場合)には、分散も標準偏差もどちらも0になります。

5. データのばらつき