BellCurve 統計WEB

  • Step1. 初級編
  • 29. 一元配置分散分析

29-2. 一元配置分散分析の流れ1

分散分析のポイントは「データ全体の平均値から因子の各水準の平均値がどのくらいずれているか」を見ることです。そのため、「データ全体の平均値からの各データのズレ」を「データ全体の平均値からの因子の各水準の平均値のズレ」と「それ以外のズレ(因子の各水準の平均値からの各データのズレ)」の3つに分けて考えます。

■分散分析のイメージ

このデータの全体の平均は「18」です。A、B、C群の平均はそれぞれ「20」、「16」、「18」です。

A群 10 20 30
B群 14 16 18
C群 20 12 22

・全体の平均値からの各データのズレ

A群 18-10=8 18-20=-2 18-30=-12
B群 18-14=4 18-16=2 18-18=0
C群 18-20=-2 18-12=6 18-22=-4

・全体の平均値からの因子の各水準の平均値のズレ

A群 18-20=-2 18-20=-2 18-20=-2
B群 18-16=2 18-16=2 18-16=2
C群 18-18=0 18-18=0 18-18=0

・それ以外のズレ

A群 20-10=10 16-20=-4 18-30=-12
B群 20-14=6 16-16=0 18-18=0
C群 20-20=0 16-12=4 18-22=-4

これらの3つのズレを式にすると次のようになります。ズレは2乗和として求めます。

「全体の平均値からの各データのズレ」=「全体の平均値からの因子の各水準の平均値のズレ」+「それ以外のズレ」

例題:

下の表は都道府県内にある映画館の数を地方ごとに分けた表です。このデータから、地方によって映画館の数の平均値に差があるかを検定します。帰無仮説H_{0}は「各地方の映画館数の平均値は等しい」とします。

北海道・東北 21 12 8 11 6 3 4
関東 92 15 6 5 5 5 5
中部 2 18 5 5 21 6 0 2 14
近畿 8 20 11 34 4 0 10
中国 8 13 5 0 1
四国 2 3 3 1
九州・沖縄 13 2 2 5 5 9 4 7

【出典:一般社団法人日本映画製作者連盟(2015年12月末現在)】

  1. 「データ全体の平均値」と「各群(地方)の平均値」を求める
  2. データ全体の平均値は「9.38」、各群(地方)の平均値は以下のようになります。

    北海道・東北 9.29
    関東 19.00
    中部 8.11
    近畿 12.43
    中国 5.40
    四国 2.52
    九州・沖縄 5.88

  3. 「データ全体の平均値からの各データのズレ」を求める
  4. 全体の平均値と47都道府県すべてのデータとの差の二乗和を求めます。

     \displaystyle (21-9.38)^{2}+(12-9.38)^{2}+(8-9.38)^{2}+ \cdots +(9-9.38)^{2}+(4-9.38)^{2}+(7-9.38)^{2}=9085.11
  5. 「データ全体の平均値からの因子の各水準の平均値のズレ」を求める
  6. 全体の平均値と7地方それぞれにおける平均値との差を二乗したものに、各地方に含まれるデータ数(都道府県数)をかけたものの和を求めます。

     \displaystyle (9.29-9.38)^{2} \times 7 +(19.00-9.38)^{2} \times 7 +(8.11-9.38)^{2} \times 9 +(12.43-9.38)^{2} \times 7 +(5.40-9.38)^{2} \times 5 +(2.52-9.38)^{2} \times 4 +(5.88-9.38)^{2} \times 8 =1108.25
  7. 「それ以外のズレ」を求める
  8. 「それ以外のズレ」=「全体の平均値からの各データのズレ」-「全体の平均値からの因子の各水準の平均値のズレ」なので、「9085.11-1108.25=7976.86」となります。

ここまでで、一元配置分散分析の第一段階は完了です。

29. 一元配置分散分析

事前に読むと理解が深まる- 学習内容が難しかった方に -