BellCurve 統計WEB

ブログ

2標本の母平均の差の区間推定における必要なサンプルサイズの計算フォーム

2017/12/22

カテゴリ:

これから集める対応のない2つの標本において何らかの測定値の平均値を求めたとき、2つの標本平均の差がある程度の範囲内で収まるために必要なサンプルサイズ(n)を、誤差、信頼度、標準偏差を指定することで求めることができます。ただし、2つの母集団の母分散は等しく、かつ2つの標本のサンプルサイズは等しい(n_1 = n_2 = n)とします。

入力には半角数字を用いて、それぞれの範囲内の値で指定してください。入力した値によっては計算に時間がかかる場合があります。その場合はブラウザの「読み込み中止」を選択してください。ページ最下部にあるExcel ファイルでも同じ計算を実行することができますので、ダウンロードしてお試しください。 → ダウンロードへ移動する

誤差(0 < 範囲 < ∞)
信頼度(90 ≤ 範囲 < 100)
標準偏差(0 < 範囲 < ∞)
サンプルサイズ
 

誤差(\delta:デルタ)

2標本の母平均の差が、上下にどの程度の範囲内に収まって欲しいかを表します。例えば、2標本の母平均の差を d 程度としているなら、母平均の差が d\pm\delta の範囲内に収まることを目標とします。

信頼度(1-\alpha

例えば、2標本の母平均として想定している差を d、誤差を \delta、信頼度を90%としたとき、これは100回中90回は2標本の母平均の差が d\pm\delta の範囲内に収まることを意味します。

標準偏差(\sigma:シグマ)

今、母集団の分散はわかりませんが、母集団の分散がわからないからと言ってその値を設定せずにサンプルサイズを設計することはできません。標準偏差の値は、予備調査のデータや過去に行われた類似調査のデータ、または何らかの情報に基づく予測値を用います。

サンプルサイズ

母分散がわからない場合の対応のない2標本の母平均の差の区間推定は以下の式で行われます。

 \displaystyle \bar{x}_1 - \bar{x}_2 -t_{(n_1+n_2-2,\alpha)} \sqrt{V \left( \frac{1}{n_1}+ \frac{1}{n_2} \right) } \leq \mu_1 - \mu_2 \\  \hspace{15mm} \leq \bar{x}_1 + \bar{x}_2 -t_{(n_1+n_2-2,\alpha)} \sqrt{V \left( \frac{1}{n_1}+ \frac{1}{n_2} \right) }

ここで、\mu_1\mu_2 は標本1と標本2の母平均、\overline{x}_1\overline{x}_2 は各サンプル平均、\alphaは1−信頼度、n_1n_2 は各サンプルサイズ、V不偏分散t(n, P) は自由度 nt分布の両側100P%点を表します。(\mu は「ミュー」と読みます。)

n_1=n_2=nとすると、区間幅は

 \displaystyle 2t_{(2n-2, \alpha)} \sqrt{\frac{2V}{n}}

であり、この式には確率変数 V が含まれていることから、区間幅の期待値が一定値 2\delta 以下となるようにサンプルサイズを設計します。

(1)    \begin{equation*} \displaystyle 2t_{(2n-2, \alpha)} E \left( \sqrt{V} \right) \sqrt{ \displaystyle \frac{2}{n} } \leq 2 \delta \end{equation*}

ここで、不偏分散の平方根の期待値は、

 \displaystyle E \left( \sqrt{V} \right) = c^{\ast} \sigma \hspace{5mm} \left( c^{\ast} = \frac{\sqrt{2} \Gamma \left( \frac{\phi +1}{2} \right)}{\sqrt{\phi} \Gamma \left( \frac{\phi}{2} \right)}  \right)

と変形することができます(参考文献を参照)。\sigma は母標準偏差、\Gamma( )ガンマ関数で、このとき\phi(ファイ)は\phi=2n-2 です。

これを(1)式に戻し、さらにフォームに入力した標準偏差 \sigma_0 を用いて \sigma=\sigma_0 とすると、

(2)    \setcounter{equation*}{1} \begin{equation*} \displaystyle t_{(2n-2,\alpha)} c^{\ast} \sigma_0 \sqrt{\frac{2}{n}} \leq \delta \end{equation*}

となります。ここで、

 \displaystyle t_{(2n-2,\alpha)} \approx z_{\frac{\alpha}{2}} , \hspace{5mm} c^{\ast} \sigma_0 \approx \sigma_0

とおきます。z_P は標準正規分布の上側100P%点です。これを用いて(2)式を n について解くと、

 \displaystyle n \geq  \frac{ 8 z^2_\frac{\alpha}{2} \sigma^2_0}{\delta^2}

となります。この式の右辺を初期値として n を1ずつ大きくしていき、(2)式を満たす最小の n が必要なサンプルサイズとなります。

誤差を変化させたときのサンプルサイズの変化

誤差を変化させたときのサンプルサイズの変化

信頼度と標準偏差の値を固定して誤差の値を変化させてみると、 上のグラフのように誤差を小さくするほど必要なサンプルサイズが増えることが見て取れます。

信頼度を変化させたときのサンプルサイズの変化

信頼度を変化させたときのサンプルサイズの変化

誤差と標準偏差の値を固定して信頼度の値を変化させてみると、 上のグラフのように信頼度を高くするほど必要なサンプルサイズが増えることが見て取れます。

標準偏差を変化させたときのサンプルサイズの変化

標準偏差を変化させたときのサンプルサイズの変化

誤差と信頼度の値を固定して標準偏差の値を変化させてみると、 上のグラフのように標準偏差を大きくするほど必要なサンプルサイズが増えることが見て取れます。

ダウンロード

この統計TipのExcelファイルのダウンロードはこちらから →  tips_20.xlsm

※ このファイルはサンプルサイズを計算するためのマクロを含んでいます。

参考文献

関連記事

エクセル統計