統計検定2級CBT公式問題集の解説（推定の分野）

2023/11/01

カテゴリ：統計検定

※統計検定2級解説記事一覧はこちら※

下記のリンクからそれぞれの問題の解説に飛ぶことができます。

問1：推定値と標準誤差に関する問題
問2： $\mu^2$ の不偏推定量に関する問題
問3： $p$ が未知の標本サイズに関する問題
問4：捕獲再捕獲法信頼区間に関する問題
問5：非正規母集団に対する母平均の信頼区間に関する問題
問6：母比率の差の信頼区間と検定に関する問題

問1

北海道と沖縄県の全体（15歳以上の全人口）は

$\displaystyle 4542 + 1150$

です。また、北海道と沖縄の野球の行動者数は

$\displaystyle 4633 \times \frac{7.1}{100} + 2849 \times \frac{9.2}{100}$

です。したがって、北海道と沖縄県の全体における野球の行動者の母比率の推定値 $\hat{p}$ は

$\displaystyle \hat{p} = \frac{4633 \times \frac{7.1}{100} + 2849 \times \frac{9.2}{100}}{4542 + 1150} = \frac{N_1\hat{p}_1 + N_2\hat{p}_2}{N_1 + N_2}$

となります。 $p_1$ と $p_2$ は独立なので、 $\hat{p}$ の分散は

$\displaystyle V[\hat{p}] = \left(\frac{N_1}{N_1 + N_2}\right)^2V[\hat{p}_1] + \left(\frac{N_2}{N_1 + N_2}\right)^2V[\hat{p}_2]$

$\displaystyle V[\hat{p}] = \left(\frac{N_1}{N_1 + N_2}\right)^2\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \left(\frac{N_2}{N_1 + N_2}\right)^2\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}$

となるので、標準誤差は

$\displaystyle SE = \sqrt{V[\hat{p}]} = \sqrt{\left(\frac{N_1}{N_1 + N_2}\right)^2\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \left(\frac{N_2}{N_1 + N_2}\right)^2\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$

となります。

標本比率を用いた母比率の信頼区間算出の詳細については「21-1. 母比率の信頼区間の求め方1」をご覧ください。

問2

$\sigma^2$ の不偏推定量 $\hat{\sigma}^2$ は

$\displaystyle \hat{\sigma}^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i -\bar{X})^2$

です。 $\hat{\sigma}^2$ を展開すると

$\begin{eqnarray*} \displaystyle E[\hat{\sigma}^2] &=& E\left[\frac{1}{n-1}\sum_{i=1}^{n} (X_i - \bar{X})^2 \right] \\ &=& E\left[\frac{1}{n-1}\sum_{i=1}^{n} (X_i - \mu + \mu - \bar{X})^2 \right] \\ &=& E\left[\frac{1}{n-1}\sum_{i=1}^{n} ((X_i - \mu) + (\mu - \bar{X}))^2 \right] \\ &=& E\left[\frac{1}{n-1}\sum_{i=1}^{n} ((X_i - \mu)^2 + 2(X_i - \mu)(\mu - \bar{X}) + (\mu - \bar{X})^2) \right] \\ &=& E\left[\frac{1}{n-1} \left(\sum_{i=1}^{n} (X_i - \mu)^2 + \sum_{i=1}^{n}2(X_i - \mu)(\mu - \bar{X}) + \sum_{i=1}^{n}(\mu - \bar{X})^2) \right] \\ &=& E\left[\frac{1}{n-1} \left(\sum_{i=1}^{n} (X_i - \mu)^2 + 2(\mu - \bar{X})\sum_{i=1}^{n}(X_i - \mu) + \sum_{i=1}^{n}(\mu - \bar{X})^2) \right] \\ &=& E\left[\frac{1}{n-1} \left(\sum_{i=1}^{n} (X_i - \mu)^2 + 2(\mu - \bar{X})n(\bar{X} - \mu) + n(\mu - \bar{X})^2) \right] \\ &=& E\left[\frac{1}{n-1} \left(\sum_{i=1}^{n} (X_i - \mu)^2 - 2n(\mu - \bar{X})^2 + n(\mu - \bar{X})^2) \right] \\ &=& E\left[\frac{1}{n-1} \left(\sum_{i=1}^{n} (X_i - \mu)^2 - n(\mu - \bar{X})^2 \right) \right] \\ &=& \frac{1}{n-1}E\left[\sum_{i=1}^{n} (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \right] \\ &=& \frac{1}{n-1} \left(E\left[ \sum_{i=1}^{n} (X_i - \mu)^2 \right] - E\left[n(\bar{X} - \mu)^2 \right] \right) \\ &=& \frac{1}{n-1} \left(E\left[ \sum_{i=1}^{n} (X_i - \mu)^2 \right] - nE\left[ \left(　\frac{1}{n} \sum_{i=1}^{n} (X_i - \mu) \right)^2 \right] \right) \\ &=& \frac{1}{n-1} \left(　n\sigma^2 - n\left( n \times \left(\frac{\sigma}{n} \right)^2 \right) \right) \\ &=& \frac{1}{n-1} \left(　n\sigma^2 - \sigma^2 \right) \\ &=& \frac{1}{n-1} (n-1)\sigma^2 \\ &=& \sigma^2 \\ \end{eqnarray*}$

となることからも確認できます。一方、 $X$ の分散は期待値を用いて次の式から求められます。

$\displaystyle V[X] = E[X^2] - (E[X])^2$

この式を変形すると、

$\begin{eqnarray*} \displaystyle V[X] &=& E[X^2] - \mu^2 \\ \mu^2 &=& E[X^2] - V[X] \\ \mu^2 &=& {\bar{X}}^2 - \frac{\sigma^2}{n} \\ \end{eqnarray*}$

となります。

不偏分散の詳細については「数学ノート　標本分散の一致性と不偏性」をご覧ください。

問3

サンプルサイズを $n$ 、標本比率を $\hat{p}$ とすると、次の式から母比率 $p$ の95%信頼区間を求めることができます。

$\displaystyle \hat{p}-1.96 \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p} + 1.96 \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$

この式から、信頼区間の幅は

$\displaystyle \hat{p} + 1.96 \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} - \left( \hat{p}-1.96 \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right) = 2 \times 1.96 \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$

となります。問題文より

$\displaystyle 2 \times 1.96 \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq 0.06$

となる最小の $n$ を求めれば良いことがわかります。 $\hat{p}$ について事前の情報が全くない場合には、 $\hat{p}=0.5$ を用いることで $p(1-p)$ が最大となるので、上の式を用いて「最もサンプルサイズが必要な場合の最小のサンプルサイズ」を計算できます。したがって、

$\displaystyle 2 \times 1.96 \times \sqrt{\frac{0.5(1-0.5)}{n}} \leq 0.06 \\$

$\displaystyle (2\times1.96)^2 \times \frac{0.25}{n} \leq 0.06^2 \\$

$\displaystyle \frac{(2\times1.96)^2 \times 0.25}{0.06^2} \leq n \\$

$\displaystyle 1067 \leq n \\$

となります。

母比率の計算方法については「21-1. 母比率の信頼区間の求め方1」をご覧ください。

問4

サンプルサイズを $n$ 、標本比率を $\widehat{p}$ とすると、次の式から母比率 $p$ の95%信頼区間を求めることができます。

$\displaystyle \hat{p}-1.96 \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p} + 1.96 \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$

問題文より、 $\displaystyle \hat{p}=\frac{20}{200} = 0.1$ 、 $n=200$ であることから、

$\displaystyle 0.1-1.96 \times \sqrt{\frac{0.1(1-0.1)}{200}} \leq p \leq 0.1 + 1.96 \times \sqrt{\frac{0.1(1-0.1)}{200}}$

$\displaystyle 0.1-1.96 \times 0.021 \leq p \leq 0.1 + 1.96 \times 0.021$

$\displaystyle 0.1-0.042 \leq p \leq 0.1 + 0.042$

となります。

問5

①：×
標本の大きさ $n$ が十分に大きい場合には、 $Z$ の分布は標準正規分布に従います。この場合、 $Z^2$ は自由度1のカイ二乗分布に従います。問題文では、「標本の大きさにかかわらず」となっているので誤りです。

②：×
母集団が正規分布に従う場合には、その母集団から抽出された標本 $n$ は自由度 $n-1$ のt分布に従います。問題文では、「母集団の年間所得金額分布は正規分布ではないと考えられる」となっているので誤りです。

③：◯
母集団がどのような分布であっても、その母集団から抽出された標本の大きさ $n$ が十分に大きい場合には $Z$ は標準正規分布に従います。これを中心極限定理といいます。

④：×
母集団がどのような分布であっても、その母集団から抽出された標本の大きさ $n$ が十分に大きい場合には $Z$ は標準正規分布に従います。問題文では、「標本の大きさ $n$ にかかわらず」となっているので誤りです。

⑤：×
標本の大きさ $n$ が十分小さいときに二項分布で近似できるかどうかは、母集団の分布によります。この問題の場合は二項分布での近似は適当ではないため誤りです。

問6

2つのグループのサンプルサイズをそれぞれ $n_1$ と $n_2$ 、標本比率を $\hat{p_1}$ と $\hat{p_2}$ とすると、次の式から母比率の差 $p_1-p_2$ の95%信頼区間を求めることができます。

$\displaystyle (\hat{p_1}-\hat{p_2})-1.96 \times \sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1}+\frac{\hat{p_2}(1-\hat{p_2})}{n_2}} \leq p_1-p_2 \leq (\hat{p_1}-\hat{p_2})+1.96 \times \sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1}+\frac{\hat{p_2}(1-\hat{p_2})}{n_2}}$

問題文より、母比率の差の95%信頼区間は

$\displaystyle (0.483-0.416)-1.96 \times \sqrt{\frac{0.483(1-0.483)}{1897}+\frac{0.416(1-0.416)}{1925}} \leq p_1-p_2 \leq (0.483-0.416)+1.96 \times \sqrt{\frac{0.483(1-0.483)}{1897}+\frac{0.416(1-0.416)}{1925}}$

$\displaystyle 0.067-1.96 \times \sqrt{\frac{0.483(1-0.483)}{1897}+\frac{0.416(1-0.416)}{1925}} \leq p_1-p_2 \leq 0.067+1.96 \times \sqrt{\frac{0.483(1-0.483)}{1897}+\frac{0.416(1-0.416)}{1925}}$

となります。この信頼区間は0をまたいでいないため、有意水準5%において帰無仮説を棄却し対立仮説を採択するという結果になります。つまり「非常に関心がある」とする者の割合が変化したと結論づけられます。

母比率の差の信頼区間については「21-6. 母比率の差の信頼区間」をご覧ください。

ブログ