- Step2. 中級編
- 6. ノンパラメトリック検定
6-4. ノンパラメトリック検定 – 対応のある2標本の差の検定
24-5章では対応のある2標本t検定について学びました。
ここでは、対応のある2標本t検定のノンパラメトリック検定版である「ウィルコクソンの符号付き順位検定」と「符号検定」について学びます。ちなみに「ウィルコクソンの符号付き順位検定」は3-4章で紹介した「ウィルコクソンの順位和検定」とは異なりますのでご注意ください。
■ウィルコクソンの符号付き順位検定
対応のある対のデータ
のすべての対について、データの差
を求めます。
となるものを除いて(サンプルサイズ
も減らします)、絶対値
が小さいものから順に並べて符号付きの順位を付けます。タイデータに対しては、順位の中央値を使用します。これらの順位を用いて、
が正の値の合計順位
と負の値の合計順位
をそれぞれ計算します。2つの合計順位のうち小さい方を検定統計量
とします。この場合、
が観測値以下の値を取る確率がP値となります。
また、サンプルサイズが大きい場合、次の式により得られたと
から算出された
が正規分布に従うことを利用して検定を行います。
![Rendered by QuickLaTeX.com \displaystyle E(T) = \frac{n(n + 1)}{4}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-cd303699b145f2a76d8dd89ca004450d_l3.png)
![Rendered by QuickLaTeX.com \displaystyle V(T) = \frac{n(n + 1)(2n + 1)}{24}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-76a2a6f881d1f11b425df37735ae2de1_l3.png)
まず、サンプルサイズが小さいデータを使ってウィルコクソンの符号付き順位検定を行ってみます。
No. | 特訓前50m走タイム(s) | 特訓後50m走タイム(s) |
---|---|---|
1 | 10.0 | 9.0 |
2 | 8.5 | 8.0 |
3 | 7.0 | 9.0 |
4 | 9.5 | 7.0 |
5 | 6.5 | 6.5 |
6 | 7.5 | 7.0 |
- データの差を求める
- 符号付き順位を付与する(差=0となるデータは除外)
- 正の値の合計順位と負の値の合計順位を算出
- P値を算出し検定を行う
No. | 特訓前50m走タイム(s) | 特訓後50m走タイム(s) | タイム差(特訓前-特訓後) |
---|---|---|---|
1 | 10.0 | 9.0 | 1.0 |
2 | 8.5 | 8.0 | 1.5 |
3 | 7.0 | 9.0 | -2.0 |
4 | 9.5 | 7.0 | 2.5 |
5 | 6.5 | 6.5 | 0 |
6 | 7.5 | 7.0 | 0.5 |
No. | 特訓前50m走タイム(s) | 特訓後50m走タイム(s) | タイム差(特訓前-特訓後) | 符号付き順位 |
---|---|---|---|---|
1 | 10.0 | 9.0 | 1.0 | 2 |
2 | 8.5 | 8.0 | 1.5 | 3 |
3 | 7.0 | 9.0 | -2.0 | -4 |
4 | 9.5 | 7.0 | 2.5 | 5 |
6 | 7.5 | 7.0 | 0.5 | 1 |
![Rendered by QuickLaTeX.com T_+ = 2 + 3 + 5 + 1 = 11](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-93c04a692a712e214ea0de4a7525c525_l3.png)
![Rendered by QuickLaTeX.com T_- = 4](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-ab65811dbb8b5a3eb75e0684b8abb06b_l3.png)
検定統計量は となります。また、1から5までの順位が正もしくは負のいずれかに分けられるすべての組み合わせは
通りです。このうち、
となる組み合わせは、
の5通りです。したがって、求めるP値(片側検定)は
![Rendered by QuickLaTeX.com \displaystyle P = \frac{6}{32} = 0.1875](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-db62e5d551e24544d3a74cee87bd6170_l3.png)
となります。また、両側検定のP値はとなります。すなわち特訓前後で50m走のタイムに有意差があるとは言えないと結論付けられます。
次に、サンプルサイズが大きいデータを使ってウィルコクソンの符号付き順位検定を行ってみます。
- データの差に対する符号順位から正の値の合計順位と負の値の合計順位を算出
- ウィルコクソンの順位和検定を行う
ここでは、、
とします。
E(T)とV(T)を求めます。
![Rendered by QuickLaTeX.com \displaystyle E(T) = \frac{30(30 +1)}{4} = 232.5](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-ccc028a2cdef2e8e8c371111e71756a5_l3.png)
![Rendered by QuickLaTeX.com \displaystyle V(T) = \frac{30(30 + 1)(2 \times 30 + 1)}{24} = 2363.75](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-95939944e063ed6949df6eb9e51cb523_l3.png)
これらの値から算出したz値を用いて検定を行います。
![Rendered by QuickLaTeX.com \displaystyle z = \frac{3-232.5}{\sqrt{2363.75}} = -4.720](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-98b802543b13c11d5f471bc16af5f5f3_l3.png)
(片側検定のP値)を求めると
となります。また、
(両側検定のP値)を求めると
となります。
ちなみに、実際のデータ(※ここではデータを示しません)から得た符号付き順位を元にP値を計算するととなることから、正規近似により実際にP値にかなり近い値が得られていることが分かります。
■符号検定
対応のある対のデータ
のすべての対について変数間の大小を比較し、「+(正:大きい)」「-(負:小さい)」「=(等しい)」の件数を調べ、「+」と「-」の数のうち小さい方を検定統計量
とします。変数間に差がない場合、全データ対のうち半数が「+」に、残りの半分が「-」になると予想されます。したがって、サンプルサイズが小さい場合には、各符号の出現率が
の二項分布に従うことを利用して検定を行います。
が観測値以下の値を取る確率がP値となります。「=(等しい)」データ対は検定から除外します(サンプルサイズ
も減らします)。
また、サンプルサイズが大きい場合、次の式により得られたと
から算出された
が正規分布に従うことを利用して検定を行います。
![Rendered by QuickLaTeX.com \displaystyle E(m) = \frac{n}{2}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-c50da6313133332818b890faf817ffac_l3.png)
![Rendered by QuickLaTeX.com \displaystyle V(m) = \frac{n}{4}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-5f2ba9868ace5f90b948c1a9e6a700c9_l3.png)
まず、サンプルサイズが小さいデータを使って符号検定を行ってみます。
No. | 特訓前50m走タイム(s) | 特訓後50m走タイム(s) |
---|---|---|
1 | 10.0 | 9.0 |
2 | 8.0 | 8.5 |
3 | 7.0 | 9.0 |
4 | 9.5 | 7.0 |
5 | 6.5 | 6.5 |
6 | 7.5 | 7.0 |
- データの大小を比較
- 検定を行う
- データの差から「+(正:大きい)」「-(負:小さい)」「=(等しい)」の件数を集計する
- 符号検定を行う
No. | 特訓前50m走タイム(s) | 特訓後50m走タイム(s) | データの大小(特訓前-特訓後) |
---|---|---|---|
1 | 10.0 | 9.0 | + |
2 | 8.5 | 8.0 | + |
3 | 7.0 | 9.0 | - |
4 | 9.5 | 7.0 | + |
5 | 6.5 | 6.5 | = |
6 | 7.5 | 7.0 | + |
No.5のデータは「=(等しい)」ため、検定から除外します。
二項分布を用いて5回のベルヌーイ試行を行うときに「-」が1回以下となる確率、すなわちとなる確率(片側検定のP値)は次の式から計算することができます。
![Rendered by QuickLaTeX.com P(X \leq 3)= {}_{5} \mathrm{C}_{0} 0.5^{0} (1-0.5)^{5-0} + {}_{5} \mathrm{C}_{1} 0.5^{1} (1-0.5)^{5-1} = 0.031 + 0.156 = 0.187](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-a99f405843860ff840755dca3c7c4f65_l3.png)
また、両側検定の場合のP値はとなります。すなわち特訓前後で50m走のタイムに有意差があるとは言えないと結論付けられます。
次に、サンプルサイズが大きいデータを使って符号検定を行ってみます。
ここでは、「+」=22、「-」=10、「=」=2とします。
検定統計量は 、サンプルサイズは
となります。次の式からE(m)とV(m)を求めます。
![Rendered by QuickLaTeX.com \displaystyle E(m) = \frac{30}{2} = 15](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-a123cb27780e12a91917bcaf6c7f085a_l3.png)
![Rendered by QuickLaTeX.com \displaystyle V(m) = \frac{30}{4} = 7.5](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-4b4173b9a736eba119006760c2ec9be1_l3.png)
これらの値から算出したz値を用いて検定を行います。
![Rendered by QuickLaTeX.com \displaystyle z = \frac{10-15}{\sqrt{7.5}} = -1.820](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-37714b81edbab6a9b271ad7c34e374a1_l3.png)
(片側検定のP値)を求めると
となります。また、
(両側検定のP値)を求めると
となります。
6. ノンパラメトリック検定
- 6-1. ノンパラメトリック検定とは
- 6-2. ノンパラメトリック検定 – 順位相関係数
- 6-3. ノンパラメトリック検定 – 対応のない2標本の差の検定
- 6-4. ノンパラメトリック検定 – 対応のある2標本の差の検定
- 6-5. ノンパラメトリック検定 – 対応のない3群以上のデータの差の検定