2019年6月統計検定2級の問題の解説（その3）

2019/08/25

カテゴリ：統計検定

タグ：2019年6月

※統計検定2級解説記事一覧はこちら※

下記のリンクからそれぞれの問題の解説に飛ぶことができます。

問14：比率の信頼区間に関する問題
問15：母平均の信頼区間と検定に関する問題
問16：第1種の過誤と第2種の過誤に関する問題
問17：回帰モデルの比較に関する問題
問18：重回帰モデルに関する問題

問14 [25]

抽出したサンプルサイズをn、標本比率を $\widehat{p}$ とすると、母比率pの95％信頼区間は次の式から求められます。

$\displaystyle \widehat{p}-1.96 \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}} \leq p \leq \widehat{p} + 1.96 \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}}$

この式に、p=20/200=0.1、n=200の値を代入すると、比率の95%信頼区間は

$\displaystyle 0.1-1.96 \times \sqrt{\frac{\widehat{0.1}(1-\widehat{0.1})}{200}} \leq p \leq 0.1 + 1.96 \times \sqrt{\frac{\widehat{0.1}(1-\widehat{0.1})}{200}}$

$\displaystyle 0.1 - 0.042 \leq p \leq 0.1 + 0.042$

と計算できます。

問15 [26]

母分散が分からない場合、母集団の平均を $\mu$ 、標本平均を $\overline{x}$ 、不偏分散を $s^{2}$ 、抽出したサンプルサイズをn、信頼係数を $(1-\alpha)(=100(1-\alpha)\%)$ とすると、次の式から母平均 $\mu$ の $(100(1-\alpha))\%$ 信頼区間を求めることができる。ただし、「 $t_{\alpha/2}(n-1)$ 」は「自由度が $(n-1)$ 」のt分布における上側確率が $\displaystyle \frac{\alpha}{2}$ となる値（t値）を示す。

$\displaystyle \overline{x}-t_{\alpha/2}(n-1) \times \sqrt{\frac{s^{2}}{n}} \leq \mu \leq \overline{x}+t_{\alpha/2}(n-1) \times \sqrt{\frac{s^{2}}{n}}$

この式に、 $\overline{x}$ =3.23、 $s^{2}=8.72^2$ 、n=24、α=0.05の値を代入すると、比率の95%信頼区間は

$\displaystyle 3.23 - t_{0.025}(23) \times \sqrt{\frac{8.72^{2}}{24}} \leq \mu \leq 3.23 +t_{0.025}(23) \times \sqrt{\frac{8.72^{2}}{24}}$

となります。「t分布のパーセント点」の自由度23の値から $t_{0.025}(23)=2.069$ を使って計算すると

$\displaystyle 3.23 - 3.68 \leq p \leq 3.23 + 3.68$

となります。

問15 [27]

問題文より、片側t検定について考えます。

$\displaystyle t=\frac{3.23-0}{\sqrt{\frac{8.72^2}{24}}} = 1.81$

「t分布のパーセント点」の自由度23の値を見ると、 $t_{0.05}(23)=1.714<1.81$ 、 $t_{0.025}(23)=2.069>1.81$ であることから、有意水準5%では棄却できますが、2.5%では棄却できません。

問16 [28]

帰無仮説（θ=0）において $x \geq 0.8$ となる確率は、「標準正規分布の上側確率」より $P(x \geq 0.8)=0.2119$ であることが分かります。すなわち、第1種過誤の確率は0.212です。

次に、対立仮説（θ=1）において $x \leq 0.8$ となる確率を求めます。

$\displaystyle z=\frac{0.8-1}{\sqrt{1}} = -0.2$

したがって、 $P(x \leq 0.8)=P(z \leq -0.2)=0.4207$ であることが分かります。すなわち、第2種過誤の確率は0.421です。

問16 [29]

$x_0=0$ のとき、 $1-\alpha(x_0)=1-P(x \geq 0)=1-0.5000=0.5000$ 、 $\beta(x_0)=P(x \leq -1)=0.1587$

$x_0=1$ のとき、 $1-\alpha(x_0)=1-P(x \geq 1)=1-0.1587=0.8413$ 、 $\beta(x_0)=P(x \leq 0)=0.5000$

$x_0=0.5$ のとき、 $1-\alpha(x_0)=1-P(x \geq 0.5)=1-0.3085=0.6915$ 、 $\beta(x_0)=P(x \leq -0.5)=0.3085$

また[28]より、 $x_0=0.8$ のとき、 $1-\alpha(x_0)=1-0.212=0.788$ 、 $\beta(x_0)=P(x \leq -0.8)=0.421$

これらの情報より、 $\beta(x_0)$ が増加すると $1-\alpha(x_0)$ も増加すること、グラフの形は上に凸であることが分かります。

問16 [30]

[29]で求めた値を使うと、

$x_0=0$ のとき、 $\alpha(x_0)+\beta(x_0)=0.5000+0.1587=0.6587$

$x_0=1$ のとき、 $\alpha(x_0)+\beta(x_0)=0.1587+0.5000=0.6587$

$x_0=0.5$ のとき、 $\alpha(x_0)+\beta(x_0)=0.3085+0.3085=0.6170$

$x_0=0.8$ のとき、 $\alpha(x_0)+\beta(x_0)=0.212+0.421=0.633$

となり、第1種過誤の確率と第2種過誤の確率の和を最小にする $x_0$ は0.5であると考えられます。

問17 [31]

I：×
高校卒の学歴と初任給の関係は、C、U、Gの値をいずれも0とすることで計算することができます。

II：○
回帰係数の値の差を求めます。7.180-4.450=2.73より2.73万円高い傾向があることが分かります。

III：×
P値は自由度n-k-1のt分布を用いた検定結果です。このときnはサンプルサイズを、kは説明変数の数（切片は含まない）を表します。

問17 [32]

I：○
正しいです。

II：×
自由度調整済み決定係数はn-k-1（nはサンプルサイズ、kは説明変数の数を表す）の値を使って決定係数の調整を行います。したがって、単回帰モデルにおいても決定係数と自由度調整済み決定係数は等しくなりません。

III：×
両側検定の場合と片側検定の場合では算出されるP値は異なります。

問17 [33]

I：×
説明変数の数が異なるモデル間で比較を行う場合には自由度調整済み決定係数を使います。

II：○
正しいです。

III：○
正しいです。

問18 [34]

Rの出力ではPr(>|t|)の部分が、偏回帰係数の有意性の検定の結果になります。すなわち、有意水準5%=0.05以下の変数が有意な変数になります。

問18 [35]

1：×
Adjusted R-squaredは自由度修正済み決定係数を、Multiple R-squaredは決定係数を表します。正規性の検定の結果を表すものではありません。

2：×
t valueはt分布における値です。t検定のために用いる値であって、変数の説明力を表すものではありません。

3：○
解析結果を見ると、「car」の偏回帰係数は「-0.0077833」となっています。すなわち、1人あたりの乗用車数が多い場合には、1人あたりの小売店舗事業所数は少ない傾向にあることが分かります。

4：×
F検定（回帰式の有意性の検定）における帰無仮説は、「回帰変動は0である（偏回帰係数はすべて0である）」です。定数項は含みません。

5：×
一般的にはAdjusted R-squared（自由度修正済み決定係数）を使います。

ブログ