2標本t検定と分散分析

2019/03/14

カテゴリ：数理統計

概要

対応のない2標本t検定と分散分析の検定統計量の関係を整理します。

今回考える問題

2つの正規母集団A群とB群があり、どちらも母分散が等しく独立であるとします。この2群から、それぞれ大きさが $n_a$ と $n_b$ の標本を抽出します。

$\displaystyle x _a \sim N (\mu _a ,\sigma ^2 ), x _b \sim N(\mu _b ,\sigma ^2)$

得られたデータより、この2群の母平均について、帰無仮説「 $H_0: \mu _a = \mu_b$ 」について統計的仮説検定を行います。

検定を行う方法は2つあり、2標本t検定と一元配置の分散分析が考えられます。この二つの手法で検定統計量がどのような関係となるかを式変形により考えます。

使用する記号

A群のサンプルサイズ： $n_a$

B群のサンプルサイズ： $n_b$

A群の標本平均： $\bar{x}_a$

B群の標本平均： $\bar{x}_b$

A群の不偏分散： $s^2_a$

B群の不偏分散： $s^2_b$

2群全体での標本平均： $\bar{x}$

i番目の個体： $x_i$

2標本t検定における検定統計量

まず、対応のない2標本t検定で帰無仮説「 $H_0: \mu _a = \mu_b$ 」を検定します。このとき、検定統計量Tは次のようになります。

(1) $\setcounter{equation*}{1} \begin{equation*} \displaystyle T=\frac{ \bar{x_a} - \bar{x_b} }{ \sqrt{ s^2 \left( \frac{1}{n_a}+\frac{1}{n_b} \right)}} \end{equation*}$

ただし、 $s^2$ はプールした分散で次のように計算されます。

$\displaystyle s^2 = \frac{(n_a -1) s^2_a + (n_b -1) s^2_b }{n_a +n_b-2}$

分散分析における検定統計量

次に、2群の分散分析で「 $H_0: \mu _a = \mu_b$ 」を検定します。分散分析表を作るため、要因の平方和、誤差の平方和、全体の平方和を求めます。

要因の平方和は次の通りです。

(2) $\setcounter{equation*}{2} \begin{equation*} \displaystyle n_a(\bar{x_a}- \bar{x})^2 + n_b(\bar{x_b}- \bar{x})^2 \end{equation*}$

誤差の平方和は次の通りです。

(3) $\setcounter{equation*}{3} \begin{equation*} \displaystyle \sum _{i=1}^{n_a} (x_i- \bar{x_a})^2 +\sum _{i=1}^{n_b} (x_i- \bar{x_b})^2 \end{equation*}$

今回は用いることはありませんが、全体の平方和は次の通りです。

(4) $\setcounter{equation*}{4} \begin{equation*} \displaystyle \sum _{i=1}^{n_a} (x_i- \bar{x})^2 +\sum _{i=1}^{n_b} (x_i- \bar{x})^2 \end{equation*}$

自由度はそれぞれ $1,n_a+n_b-2,n_a+n_b-1$ です。

続けて、平均平方を求めます。モデルの自由度は1ですから、要因の平均平方 $MS _ m$ は要因の平方和と同じです。

(5) $\setcounter{equation*}{5} \begin{equation*} \displaystyle MS_m=n_a(\bar{x_a}- \bar{x})^2 + n_b(\bar{x_b}- \bar{x})^2 \end{equation*}$

誤差の自由度は $n_a+n_b-2$ ですから、誤差の平均平方 $MS _ c$ は次のようになります。

(6) $\setcounter{equation*}{6} \begin{equation*} \displaystyle MS_e=\frac{\sum _{i=1}^{n_a} (x_i- \bar{x_a})^2 +\sum _{i=1}^{n_b} (x_i- \bar{x_b})^2}{n_a+n_b-2} \end{equation*}$

(5)と(6)で求めた平均平方の値から、検定統計量となるF値を求めることができます。

(7) $\setcounter{equation*}{7} \begin{equation*} \displaystyle F=\frac{MS_m}{MS_e}=\frac{n_a(\bar{x_a}- \bar{x})^2 + n_b(\bar{x_b}- \bar{x})^2}{\frac{\sum _{i=1}^{n_a} (x_i- \bar{x_a})^2 +\sum _{i=1}^{n_b} (x_i- \bar{x_b})^2}{n_a+n_b-2}} \end{equation*}$

なお、最終的に分散分析表は次のようになります。カッコのついた数字が上で計算した式番号に対応し、タップすることで該当の数式にジャンプします。

因　子	平方和	自由度	平均平方	F　値
要因	(2)	1	(5)	(7)
残差	(3)	$n_a+n_b-2$	(6)
全体	(4)	$n_a+n_b-1$

TとFの関係

ここからは、先程求めたTとFの関係について考えます。ただし、各群の偏差平方和 $\sum_i^{n_{\cdot}}(x_{i}- \bar{x_{\cdot}})^2$ が複雑な形をしており見にくいので、それぞれ $S_a$ 、 $S_b$ とおきます。

なお、各群の不偏分散 $s^2_a$ 、 $s^2_b$ と $S_a$ 、 $S_b$ は定義から次の関係が成立します。

$\displaystyle s_a^2= \frac{S_a}{n_a -1} , s_b^2= \frac{S_b}{n_b -1}$

これを用いて、T統計量を書き直します。

$\begin{eqnarray*} \displaystyle T &=& \frac{ \bar{x_a} - \bar{x_b} }{ \sqrt{ s^2 \left( \frac{1}{n_a}+\frac{1}{n_b} \right)}} \\ &=& \frac{ \bar{x_a} - \bar{x_b} }{ \sqrt{ \frac{S_a+S_b}{n_a+n_b-2} \left( \frac{1}{n_a}+\frac{1}{n_b} \right)}} \end{eqnarray*}$

Tを二乗します。Tの変形はこれで終了です。

(8) $\setcounter{equation*}{7} \begin{equation*} \displaystyle T^2 =\frac{ ( \bar{x_a} - \bar{x_b}) ^2 }{ \frac{S_a+S_b}{n_a+n_b-2} \left( \frac{1}{n_a}+\frac{1}{n_b} \right)} \end{equation*}$

次にF統計量を変形するのですが、まず分母の $MS_e$ を書き直します。

(9) $\setcounter{eqnarray*}{8} \begin{eqnarray*} \displaystyle MS_e &=& \frac{ \sum _{i=1}^{n_a} (x_i- \bar{x_a})^2 + \sum _{i=1}^{n_b} (x_i- \bar{x_b})^2 }{ n_a + n_b - 2} \nonumber \\ &=& \frac{S_a + S_b}{n_a + n_b-2} \end{eqnarray*}$

続けて分子の $MS _m$ を書き直します。全体平均 $\bar{x}$ と $\bar{x_a}$ 、 $\bar{x_b}$ には次の関係があります。

$\displaystyle \bar{x}= \frac{n_a \bar{x_a}+ n_b \bar{x_b}}{n_a+n_b}$

これを用いると、 $MS _ m$ は次のようになります。

(10) $\setcounter{equation*}{9} \begin{equation*} \displaystyle MS_m=n_a(\bar{x_a}- \bar{x})^2 + n_b(\bar{x_b}- \bar{x})^2 \end{equation*}$

(10)式の右辺第一項は次のように変形できます。

(11) $\setcounter{eqnarray*}{10} \begin{eqnarray*} \displaystyle n_a(\bar{x_a}- \bar{x})^2 &=& n_a \left( \bar{x_a}- \frac{n_a \bar{x_a}+ n_b \bar{x_b}}{n_a+n_b} \right)^2 \nonumber \\ &=& n_a \frac{ \{ n_b (\bar{x_a}-\bar{x_b}) \}^2 }{ (n_a + n_b)^2 } \end{eqnarray*}$

同様に、(10)式の右辺第二項も変形できます。

(12) $\setcounter{eqnarray*}{11} \begin{eqnarray*} \displaystyle n_b(\bar{x_b}- \bar{x})^2 &=& n_b \left( \bar{x_b}- \frac{n_a \bar{x_a}+ n_b \bar{x_b}}{n_a+n_b} \right)^2 \\ &=& n_b \frac{ \{ n_a (\bar{x_b}-\bar{x_a}) \} ^2 }{ ( n_a + n_b) ^2 } \end{eqnarray*}$

(11)と(12)の結果を用いると、 $MS_m$ は次のように整理できます。

(13) $\setcounter{eqnarray*}{12} \begin{eqnarray*} \displaystyle MS_m &=& (11) + (12) \\ &=& \frac{n_a n_b}{(n_a +n_b) ^2} \{ n_b (\bar{x_a}-\bar{x_b})^2 +n_a (\bar{x_b}-\bar{x_a})^2 \} \nonumber \\ &=& \frac{n_a n_b}{n_a + n_b} (\bar{x_a}-\bar{x_b})^2 \nonumber \\ &=& \frac{(\bar{x_a}-\bar{x_b})^2}{ \left( \frac{1}{n_a} + \frac{1}{n_b} \right)} \end{eqnarray*}$

最後の変形には、次の関係を用いました。

$\displaystyle \frac{n_a n_b}{n_a +n_b}= \frac{1}{ \frac{n_a + n_b}{n_a n_b}} = \frac{1}{\frac{1}{n_a}+\frac{1}{n_b}}$

(9)と(13)の結果を用いて、F統計量は次のように書き直すことができました。

(14) $\setcounter{equation*}{13} \begin{equation*} \displaystyle F= \frac{MS_m}{MS_e} =\frac{(13)}{(9)}=\frac{ (\bar{x_a}-\bar{x_b})^2}{\frac{S_a+S_b}{n_a+n_b-2} \left( \frac{1}{n_a} + \frac{1}{n_b} \right)} \end{equation*}$

(8)式で求めた $T^2$ と見比べると一致しており、 $T^2=F$ であることが分かります。つまり、2標本t検定での検定統計量を2乗すると、同じデータで分散分析を行った場合のF統計量になることが分かります。

補足：統計量の定義を確認する

そもそも、t分布がどのような確率変数であったかを思い出しましょう。定義では、それぞれ独立な標準正規分布に従う確率変数Xと、自由度nのカイ二乗分布に従う確率変数Yを用いて次のような確率変数Tを作ると、Tは自由度tのt分布に従います。

$\displaystyle T= \frac{X}{ \sqrt{\frac{Y}{n}}} \sim t_{n}$

これを2乗すると、次のようになります。

$\displaystyle T^2= \frac{X^2}{\frac{Y}{n}}=\frac{\frac{X^2}{1}}{\frac{Y}{n}}$

ところで、標準正規分布に従う確率変数を二乗すると、自由度1のカイ二乗分布に従います。

$T^2$ は分子が自由度1のカイ二乗分布で分母が自由度nのカイ二乗分布ですから、F分布の定義より自由度(1,n)のF分布に従うことが分かります。上で確かめた内容は、偶然の一致ではないということです。

使用例

残念ながら、この結果を用いて何か特別便利な計算ができるわけではありません。

しかし、2018年6月統計検定2級試験の大問12において、2群のデータについて対応のないt検定と分散分析の検定統計量を答える問題が出題されました。

正攻法で解くと計算に時間がかかるかもしれませんが、本記事の内容を使用して解くと次のようになります。

まず、問12（回答番号［24］）は通常の通り解きます。このとき、t=1.82と答えが出てきます。次に、問12（回答番号［25］）は、先に求めたt値を二乗し、 $F=t^2=1.82^2 \simeq 3.31$ と計算できます。

ブログ