BellCurve 統計WEB

社会人のためのデータ分析講座。Aidemy Premium
  • Step2. 中級編
  • 1. 2×2のクロス集計表と様々な比率

1-6. コクラン=アーミテージ検定


コクラン=アーミテージ検定は、順序尺度からなる順序データと2値データからなるクロス集計表があるときに、順序データの水準に伴う2値データの傾向性があるかどうかを検定する場合に用います。

例えば、順序データ(x_1,\ x_2,\ x_3)と2値データ(y_1,\ y_2)からなるクロス集計表の場合、順序データの各水準におけるy_1 の割合(a/(a+b),\ c/(c+d),\ e/(e+f))に直線的な増加もしくは減少の傾向があるかを検定します。

y_1y_2合計
x_1aba+b
x_2cdc+d
x_3efe+f


少し分かりにくいので具体例をあげてみます。お酒を「飲まない」、「少し飲む」、「たくさん飲む」人の中で、肥満の割合を調べた結果について考えてみます。

肥満である肥満ではない合計肥満の割合
お酒を飲まない109010010%
お酒を少し飲む20608025%
お酒をたくさん飲む30306050%

この例では「肥満である」の割合に傾向があるかを検定します。すなわち、X軸にお酒を飲む量の水準を、Y軸に肥満の割合を取ったとったときに、回帰直線の傾きが0でない場合には、お酒を飲む量が増えるにつれて肥満の割合が有意に増加(もしくは減少)すると結論付けられます。

■計算方法

順序尺度からなる順序データ(x_1,\ x_2,\ \cdots,\ x_k)と2値データ(y_1,\ y_2)からなる次のような結果について考えます。

y_1y_2合計割合
x_1a_1b_1n_1p_1
x_2a_2b_2n_2p_2
x_ka_kb_kn_kp_k
合計abnp

コクラン=アーミテージ検定では、この結果から次のようなカイ二乗値を計算します。x_1,\ x_2,\ \cdots,\ x_k の値は順序データの値をそのまま使う場合や 1,\ 2,\ \cdots\ k という値を用いる場合もあります。

カイ二乗値自由度
直線の傾き\chi_{slope}1
直線からのズレ\chi_{residual}k-2
合計\chi_{total}k-1

まず、3つの平方和(S_{xx},\ S_{yy},\ S_{xy})を計算します。

 \displaystyle S_{xx} = \sum_{i=1}^{k}  n_i w (x_i-\bar{x})^2
 \displaystyle S_{yy} = \sum_{i=1}^{k}  n_i w (p_i - p)^2
 \displaystyle S_{xy} = \sum_{i=1}^{k}  n_i w (x_i-\bar{x})(p_i - p)

ただし、w\bar{x} は次の式から算出します。

 \displaystyle w = \frac{1}{p(1-p)}
 \displaystyle \bar{x} = \frac{\sum n_i x_i}{n}

次に、これらの平方和から各カイ二乗値を計算します。

 \displaystyle \chi^2_{slope} = \frac{S^2_{xy}}{S_{xx}}
 \displaystyle \chi^2_{total} = S_{yy}
 \displaystyle \chi^2_{residual} = S_{total} - S_{slope}

カイ二乗値と自由度から検定を行います。\chi^2_{slope} を使ったカイ二乗検定の結果が、直線の傾き \beta_1=0 であるかどうかの検定結果です。

例題:

上であげたお酒を飲む量と肥満の割合との関係についてまとめた結果を使って、お酒を飲む量に対して肥満の割合に傾向があるかどうかを検証し、結論を導き出してください。有意水準を5%とします。

肥満である肥満ではない合計肥満の割合
お酒を飲まない109010010%
お酒を少し飲む20608025%
お酒をたくさん飲む30306050%


ここでは、お酒を飲む量の各水準を「お酒を飲まない=1」、「お酒を少し飲む=2」、「お酒をたくさん飲む=3」として計算します。

肥満である肥満ではない合計肥満の割合
1109010010%
220608025%
330306050%
合計6018024025%


まず、3つの平方和(S_{xx},\ S_{yy},\ S_{xy})を計算します。

 \displaystyle w = \frac{1}{0.25(1-0.25)} = 5.33
 \displaystyle \bar{x} = \frac{\sum n_i x_i}{n} = \frac{1 \times 100 + 2 \times 80 + 3 \times 60}{240} = \frac{440}{240} = 1.83

であることから

     \begin{eqnarray*} \displaystyle S_{xx} &=& \sum_{i=1}^{k} n_i w (x_i-\bar{x})^2 \\ &=& 100 \times 5.33(1-1.83)^2 + 80 \times 5.33(2-1.83)^2 + 60 \times 5.33(3-1.83)^2 \\ &=& 817.28 \\ \end{eqnarray*}

     \begin{eqnarray*} \displaystyle S_{yy} &=& \sum_{i=1}^{k} n_i w (p_i - p)^2 \\ &=& 100 \times 5.33(0.1-0.25)^2 + 80 \times 5.33(0.25-0.25)^2 + 60 \times 5.33(0.5-0.25)^2 \\ &=& 31.98 \\  \end{eqnarray*}

 \displaystyle S_{xy} &=& \sum_{i=1}^{k}  n_i w (x_i-\bar{x})(p_i - p) \\ &=& 100 \times 5.33(1-1.83)(0.1-0.25) + 80 \times 5.33(2-1.83)(0.25-0.25) + 60 \times 5.33(3-1.83)(0.5-0.25) \\ &=& 159.90 \\  \end{eqnarray*}

となります。これらの平方和から各カイ二乗値を計算すると

 \displaystyle \chi^2_{slope} = \frac{S^2_{xy}}{S_{xx}} = \frac{159.90^2}{817.28} = 31.28
 \displaystyle \chi^2_{total} = S_{yy} = 31.98
 \displaystyle \chi^2_{residual} = S_{total} - S_{slope} = 31.98 - 31.28 = 0.70

となります。カイ二乗値と自由度から検定を行うと次のようになります。

カイ二乗値自由度検定結果
直線の傾き31.281有意である
直線からのズレ0.702有意ではない
合計31.983有意である


\chi^2_{slope} を使ったカイ二乗検定の結果が、直線の傾き \beta_1=0 であるかどうかの検定結果です。したがって、「お酒を飲む量と肥満の割合には直線的な傾向が見られる(お酒を飲む量が増えると肥満の割合が増加する)」と結論づけられます。


1. 2×2のクロス集計表と様々な比率


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


統計WEBを運営するBellCurveは、統計解析ソフト「エクセル統計」を開発・販売しています! 統計解析ソフト「エクセル統計」をインストール後のExcel上のタブとメニュー エクセル統計ジャケット画像


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)


【PR】