2021年6月統計検定2級の問題の解説（その3）

2021/08/10

カテゴリ：統計検定

タグ：2021年6月

※統計検定2級解説記事一覧はこちら※

下記のリンクからそれぞれの問題の解説に飛ぶことができます。

問15：母平均とサンプルサイズに関する問題
問16：単回帰分析に関する問題
問17：母比率の信頼区間と検定に関する問題
問18：正規分布・t分布・カイ二乗分布に関する問題
問19：カイ二乗検定に関する問題
問20：第1種の過誤の確率に関する問題
問21：分散分析に関する問題
問22：重回帰分析に関する問題

問15 [20]

母分散が既知の場合の母平均の95％信頼区間は次の式から求められます。

$\displaystyle \overline{x}-1.96 \times \sqrt{\frac{\sigma^{2}}{n}} \leq \mu \leq \overline{x}+1.96 \times \sqrt{\frac{\sigma^{2}}{n}}$

$\overline{x}$ は標本平均を、 $\sigma^{2}$ は母分散を、 $n$ はサンプルサイズを表します。問題文の値を用いて計算すると

$\displaystyle 5.25-1.96 \times \sqrt{\frac{12^{2}}{100}} \leq \mu \leq 5.25+1.96 \times \sqrt{\frac{12^{2}}{100}}$

$\displaystyle 2.90 \leq \mu \leq 7.60$

となります。

問15 [21]

[20]より母平均の95％信頼区間の幅は

$\displaystyle 2 \times 1.96 \times \sqrt{\frac{\sigma^{2}}{n}}$

と表すことができます。問題文の条件を入れて

$\displaystyle 2 \times 1.96 \times \sqrt{\frac{12^{2}}{n}} \leq 4$

を解くと、サンプルサイズは $n\geq 138.3$ となります。

問16 [22]

最小二乗法を用いて回帰式 $y=\beta x$ の $\beta$ を定める場合、次の式を $\beta$ で偏微分した式を0とした式を使います。

$\displaystyle S=\sum_{i=1}^{n}(y_{i}-\beta x_{i})^{2}$

$\beta$ で偏微分すると

$\displaystyle \frac{\delta S}{\delta \beta}=-2\sum_{i=1}^{n}x_{i}(y_{i}-\widehat{\beta} x_{i}) = 0$

$\displaystyle -2\sum_{i=1}^{n}x_{i}y_{i} + 2\sum_{i=1}^{n}\widehat{\beta} x_{i}^2 = 0$

$\displaystyle \widehat{\beta} \times \sum_{i=1}^{n}x_{i}^2 = \sum_{i=1}^{n}x_{i}y_{i}$

$\displaystyle \widehat{\beta} = \frac{\sum_{i=1}^{n}x_{i}y_{i}}{\sum_{i=1}^{n}x_{i}^2}$

となります。偏微分を計算させるとは…。

問16 [23]

I：×
定数項を含まない単回帰モデルの場合、残差の和が0になる性質は成り立ちません。

II：○
[22]より

$\displaystyle \sum_{i=1}^{n}x_{i}(y_{i}-\widehat{\beta} x_{i}) = 0$

$\displaystyle \sum_{i=1}^{n}x_{i}(y_{i}-\widehat{y}_{i}) = 0$

$\displaystyle \sum_{i=1}^{n}x_{i}\widehat{u}_i = 0$

が成り立つので正しいです。

III：×
Iが成り立たないので成り立ちません。

IV：×
Iが成り立たないので成り立ちません。

問17 [24]

母比率の95%信頼区間は次の式から求められます。

$\displaystyle \widehat{p}-1.96 \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}} \leq p \leq \widehat{p} + 1.96 \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}}$

nはサンプルサイズを、 $\widehat{p}$ は標本比率を表します。問題文より標本比率は $284/500=0.568$ です。したがって、求める信頼区間は

$\displaystyle 0.568-1.96 \times \sqrt{\frac{0.568\times(1-0.568)}{500}} \leq p \leq 0.568 + 1.96 \times \sqrt{\frac{0.568\times(1-0.568)}{500}}$

$\displaystyle 0.525 \leq p \leq 0.611$

となります。

問17 [25]

（ア） $X=4$ となる確率は次のように求められます。

$\displaystyle P(X=4)=_8C_4 \times \left\{ \frac{1}{2} \right\}^4 \times \left\{ \frac{1}{2} \right\}^4 = 0.273$

（イ）は片側検定になります。 $X=7$ となる確率（P値）は、 $k=7$ となる確率と $k=8$ となる確率を足したもの（7よりも極端な値が得られる確率）になります。したがって、 $0.031+0.004=0.035$ となります。

（ウ）は両側検定になります。 $X=7$ となる確率は $k=7$ となる確率と $k=8$ となる確率を足したもの（7よりも極端な値が得られる確率）を2倍したものになります。したがって、 $0.035\times 2 = 0.070$ となります。

問18 [26]

Aの式は母分散 $\sigma^2$ を使った式であり、標準正規分布 $N(0,1)$ に従います。Bの式は自由度 $(m+m-2)$ の $\chi^2(m+m-2)$ に従います。

※（イ）は正規分布の二乗和がカイ二乗分布に従うこと（詳細はこちら）から導くことができます。

正規分布、カイ二乗分布、t分布の間には次のような関係が成り立ちます。詳しくはこちらをご覧ください。

$\displaystyle t_r = \frac{z}{\sqrt{\frac{\chi^2_r}{r}}}$

$t_r$ は自由度 $r$ のt分布に従う変数を、zは標準正規分布に従う変数を、 $\chi^2_r$ は自由度 $r$ のカイ二乗分布に従う変数を表します。したがって、 $T$ 、 $A$ 、 $B$ の関係は

$\displaystyle T=\frac{A}{\sqrt{\frac{B}{m+n-2}}}$

と表すことができます。

問19 [27]

まず、行と列のデータの理論値を算出します。「喫煙歴あり・心筋梗塞あり」の場合は

$\displaystyle \frac{15\times 10}{20} = 7.5$

となります。同様に計算すると、「喫煙歴あり・心筋梗塞なし」の理論値は7.5、「喫煙歴なし・心筋梗塞あり」の理論値は2.5、「喫煙歴なし・心筋梗塞なし」の理論値は2.5となります。

これらの理論値と実測値を用いて $\chi^2$ 値を次のように求めます。

$\displaystyle \chi^2=\frac{(9-7.5)^2}{7.5} + \frac{(6-7.5)^2}{7.5} + \frac{(1-2.5)^2}{2.5} + \frac{(4-2.5)^2}{2.5} = 0.3 + 0.3 + 0.9 + 0.9 = 2.4$

この $\chi^2$ 値はm行n列のクロス集計表の場合、自由度 $(m-1)\times(n-1)$ のカイ二乗分布に従います。この問題では2行2列のクロス集計表なので、自由度1のカイ二乗分布を用いて $\chi^2$ 値の検定を行います。

カイ二乗分布表を見ると、自由度1の場合「 $\alpha=0.10$ のとき $\chi^2=2.71$ 」、「 $\alpha=0.05$ のとき $\chi^2=3.84$ 」となっています。これら2つの値から、ものすごーくざっくりと「 $\chi^2$ が0.2くらい増加すると $\alpha$ が0.01くらい減少する」ということが分かるので、 $\chi^2=2.4$ になるのは $\alpha=0.12$ を超えたあたりだと予想できます。カイ二乗検定の詳細についてはこちらをご覧ください。

問20 [28]

$X_j$ および $X_k$ はそれぞれ正規分布 $N(\mu_j, 1)$ 、 $N(\mu_k, 1)$ に従います。したがって、 $X_j-X_k$ は $N(\mu_{j}-\mu_{k},2)$ に従います。ここでは、帰無仮説を「 $\mu_j = \mu_k$ 」とするので、正規分布 $N(0, 2)$ を使って第1種過誤の確率を考えます。

まず、 $z=1.96\sqrt{2}$ の値を正規化すると

$\displaystyle z' = \frac{1.96\sqrt{2}-0}{\sqrt{2}}=1.96$

となります。標準正規分布表より $P(Z\geq 1.96)=0.05$ であることから、求める確率は0.05となります。

問20 [29]

右辺の各項が $(5/3)\%$ となるときのzの値を求めます。[28]と逆の計算を行うわけです。

$P(|X_1-X_2|>z)=(5/3)\%$ 、すなわち、 $P((X_1-X_2)>z)=(5/3)/2\%=0.00833$ となるときのzの値を考えます。

標準正規分布表より $P(Z\geq z'=2.395)=0.0083$ （※ $P(Z\geq u=2.39)=0.0084$ と $P(Z\geq u=2.40)=0.0082$ の真ん中と設定）であることから、

$\displaystyle z' = \frac{z-0}{\sqrt{2}}= 2.395$

$\displaystyle z=3.387$

となります。

問21 [30]

ポイントは「ランダムに選んだパソコン」に対して「3種類の対策をランダムに」割り付け、さらに「測定もランダムに行う」ことです。

このようなランダムな処理が必要な理由は、系統誤差（処理の違いによる差）をなるべく小さくするためです。

問21 [31]

自由度 $\nu_1$ と $\nu_2$ はそれぞれ要因（ここでは対策）の自由度と誤差の自由度を表します。詳細についてはこちらをご覧ください。

「要因の自由度」は因子の水準（対策の種類）の個数から1を引いたものです。したがって $3-1=2$ になります。

「誤差の自由度」は「全体の自由度」から「要因の自由度」を引いたものです。「全体の自由度」は全てのデータの個数から1を引いたものなので、 $12-1=11$ です。したがって「誤差の自由度」は $11-2=9$ になります。

問21 [32]

分散分析における信頼区間は次の式から求められます。これも統計検定2級の範囲だったとは…。

$\displaystyle \overline{x}-t_{\alpha/2}(df_E) \times \sqrt{\frac{V_E}{n_i}} \leq \mu \leq \overline{x}+t_{\alpha/2}(df_E) \times \sqrt{\frac{V_E}{n_i}}$

$\bar{x}$ は標本平均を、 $df_E$ は誤差の自由度を、 $V_E$ は誤差の平均平方を、 $n_i$ はi番目の条件におけるサンプルサイズを表します。

[31]で求めた値を用いて誤差の平均平方を求めると $1890.1/9=210.0$ になります。したがって、求める信頼区間は

$\displaystyle -49.9-2.262 \times \sqrt{\frac{210.0}{4}} \leq \mu \leq -49.9+2.262 \times \sqrt{\frac{210.0}{4}}$

$\displaystyle -66.29 \leq \mu \leq -33.51$

となります。

問22 [33]

偏回帰係数の有意性の検定で用いるt値は、偏回帰係数（Estimate）を標準誤差（Std. Error）で割った値です。したがって、求める値は

$\displaystyle t = \frac{−9.614}{3.575} = −2.689$

となります。

問22 [34]

1：×
P値の大小は説明力の大小を表すものではありません。P値は「帰無仮説が正しいという前提において、それ以上、偏った検定統計量（この場合はt値）が得られる確率」のことです。

2：○
政令指定都市ダミーの偏回帰係数（Estimate）が「 $e^{-0.198}=0.82$ 」なので、政令指定都市であれば、1人当たり社会体育施設数は0.8をかけた数（すなわち2割減）となります。

3：×
15歳未満人口の割合のP値は0.333なので、有意水準10％では棄却されません。

4：×
log(1 人当たり所得)の偏回帰係数は0.519（0より大きい）なので、1人当たりの所得が高いほど1人当たり社会体育施設数が多い傾向があります。

5：×
重回帰係数は説明変数と目的変数間の相関関係（直線関係）を見るためのものであり、因果関係を見るためのものではありません。

問22 [35]

I：×
モデルAにおいて「log(1 人当たり所得)」のP値は0.084です。

II：○
自由度調整済み決定係数（Adjusted R-squared）は高いほど当てはまりの良いモデルであることを表します。モデルAは0.8362、モデルBは0.8394なので、モデルBのほうが良いモデルであるといえます。

III：○
「回帰式の有意性の検定（F-statistic）」は、データから算出された回帰式が統計的に意味のあるものか（説明変数が目的変数を説明しているか）を検定した結果です。帰無仮説は「回帰変動は0である（偏回帰係数はすべて0である）」です。モデルAはP=4.494e–16、モデルBはP=2.2e–16であることから、両モデルにおいて説明変数にかかるすべての係数がゼロであるという帰無仮説は棄却されます。

ブログ