BellCurve 統計WEB

  • Step2. 中級編
  • 6. ノンパラメトリック検定

6-4. ノンパラメトリック検定 – 対応のある2標本の差の検定

24-5章では対応のある2標本t検定について学びました。

ここでは、対応のある2標本t検定のノンパラメトリック検定版である「ウィルコクソンの符号付き順位検定」と「符号検定」について学びます。ちなみに「ウィルコクソンの符号付き順位検定」は3-4章で紹介した「ウィルコクソンの順位和検定」とは異なりますのでご注意ください。

■ウィルコクソンの符号付き順位検定

対応のあるn対のデータ (X_i, Y_i: n = 1, 2, \dots, n) のすべての対について、データの差 d_i を求めます。d_i=0 となるものを除いて(サンプルサイズnも減らします)、絶対値 |d_i| が小さいものから順に並べて符号付きの順位を付けます。タイデータに対しては、順位の中央値を使用します。これらの順位を用いて、d_i が正の値の合計順位 T_+ と負の値の合計順位 T_- をそれぞれ計算します。2つの合計順位のうち小さい方を検定統計量 T(T=min(T_+, T_-)) とします。この場合、T が観測値以下の値を取る確率がP値となります。

また、サンプルサイズが大きい場合、次の式により得られたE(T)V(T)から算出された\displaystyle \frac{T-E(T)}{\sqrt{V(T)}}が正規分布に従うことを利用して検定を行います。

 \displaystyle E(T) = \frac{n(n + 1)}{4}
 \displaystyle V(T) = \frac{n(n + 1)(2n + 1)}{24}


まず、サンプルサイズが小さいデータを使ってウィルコクソンの符号付き順位検定を行ってみます。

No.特訓前50m走タイム(s)特訓後50m走タイム(s)
110.09.0
28.58.0
37.09.0
49.57.0
56.56.5
67.57.0

  1. データの差を求める
  2. No.特訓前50m走タイム(s)特訓後50m走タイム(s)タイム差(特訓前-特訓後)
    110.09.01.0
    28.58.01.5
    37.09.0-2.0
    49.57.02.5
    56.56.50
    67.57.00.5

  3. 符号付き順位を付与する(差=0となるデータは除外)
  4. No.特訓前50m走タイム(s)特訓後50m走タイム(s)タイム差(特訓前-特訓後)符号付き順位
    110.09.01.02
    28.58.01.53
    37.09.0-2.0-4
    49.57.02.55
    67.57.00.51

  5. 正の値の合計順位と負の値の合計順位を算出
  6.  T_+ = 2 + 3 + 5 + 1 = 11
     T_- = 4
  7. P値を算出し検定を行う
  8. 検定統計量は T=min(T_+, T_-)=4 となります。また、1から5までの順位が正もしくは負のいずれかに分けられるすべての組み合わせは 2^5=32 通りです。このうち、T \leq 4 となる組み合わせは、

    • (T_+, T_-)=(\{ 2, 3, 4, 5 \}, \{ 1 \})
    • (T_+, T_-)=(\{ 1, 3, 4, 5 \}, \{ 2 \})
    • (T_+, T_-)=(\{ 1, 2, 4, 5 \}, \{ 3 \})
    • (T_+, T_-)=(\{ 1, 2, 3, 5 \}, \{ 4 \})
    • (T_+, T_-)=(\{ 3, 4, 5 \}, \{ 1, 2 \})
    • (T_+, T_-)=(\{ 2, 4, 5 \}, \{ 1, 3 \})

    の6通りです。したがって、求めるP値(片側検定)は

     \displaystyle P = \frac{6}{32} = 0.1875

    となります。また、両側検定のP値はP = 0.1875 \times 2 = 0.375となります。すなわち特訓前後で50m走のタイムに有意差があるとは言えないと結論付けられます。



次に、サンプルサイズが大きいデータを使ってウィルコクソンの符号付き順位検定を行ってみます。

  1. データの差に対する符号順位から正の値の合計順位と負の値の合計順位を算出
  2. ここでは、T=3n=30 とします。

  3. ウィルコクソンの順位和検定を行う
  4. E(T)とV(T)を求めます。

     \displaystyle E(T) = \frac{30(30 +1)}{4} = 232.5
     \displaystyle V(T) = \frac{30(30 + 1)(2 \times 30 + 1)}{24} = 2363.75

    これらの値から算出したz値を用いて検定を行います。

     \displaystyle z = \frac{3-232.5}{\sqrt{2363.75}} = -4.720

    P(z \leq -4.720)=P(z \geq 4.720)(片側検定のP値)を求めるとP=1.177 \times 10^{-6}となります。また、P(|z| \geq 4.720)(両側検定のP値)を求めるとP=2.353 \times 10^{-6}となります。

    ちなみに、実際のデータ(※ここではデータを示しません)から得た符号付き順位を元にP値を計算するとP = 2.332 \times 10^{-6}となることから、正規近似により実際にP値にかなり近い値が得られていることが分かります。


■符号検定

対応のあるn対のデータ (X_i, Y_i: n = 1, 2, \dots, n) のすべての対について変数間の大小を比較し、「+(正:大きい)」「-(負:小さい)」「=(等しい)」の件数を調べ、「+」と「-」の数のうち小さい方を検定統計量 m とします。変数間に差がない場合、全データ対のうち半数が「+」に、残りの半分が「-」になると予想されます。したがって、サンプルサイズが小さい場合には、各符号の出現率が p = 0.5二項分布に従うことを利用して検定を行います。m が観測値以下の値を取る確率がP値となります。「=(等しい)」データ対は検定から除外します(サンプルサイズnも減らします)。

また、サンプルサイズが大きい場合、次の式により得られたE(m)V(m)から算出された\displaystyle \frac{m-E(m)}{\sqrt{V(m)}}が正規分布に従うことを利用して検定を行います。

 \displaystyle E(m) = \frac{n}{2}
 \displaystyle V(m) = \frac{n}{4}

まず、サンプルサイズが小さいデータを使って符号検定を行ってみます。

No.特訓前50m走タイム(s)特訓後50m走タイム(s)
110.09.0
28.08.5
37.09.0
49.57.0
56.56.5
67.57.0

  1. データの大小を比較
  2. No.特訓前50m走タイム(s)特訓後50m走タイム(s)データの大小(特訓前-特訓後)
    110.09.0+
    28.58.0+
    37.09.0-
    49.57.0+
    56.56.5=
    67.57.0+

    
    

    No.5のデータは「=(等しい)」ため、検定から除外します。

  3. 検定を行う
  4. 二項分布を用いて5回のベルヌーイ試行を行うときに「-」が1回以下となる確率、すなわちX \leq 1となる確率(片側検定のP値)は次の式から計算することができます。

     P(X \leq 3)= {}_{5} \mathrm{C}_{0}  0.5^{0} (1-0.5)^{5-0} + {}_{5} \mathrm{C}_{1}  0.5^{1} (1-0.5)^{5-1} = 0.031 + 0.156 = 0.187

    また、両側検定の場合のP値はP = 0.187 \times 2 = 0.374となります。すなわち特訓前後で50m走のタイムに有意差があるとは言えないと結論付けられます。

    
    
    

    次に、サンプルサイズが大きいデータを使って符号検定を行ってみます。

    1. データの差から「+(正:大きい)」「-(負:小さい)」「=(等しい)」の件数を集計する
    2. ここでは、「+」=22、「-」=10、「=」=2とします。

    3. 符号検定を行う
    4. 検定統計量は m=10、サンプルサイズは22+10-2=30となります。次の式からE(m)とV(m)を求めます。

       \displaystyle E(m) = \frac{30}{2} = 15
       \displaystyle V(m) = \frac{30}{4} = 7.5

      これらの値から算出したz値を用いて検定を行います。

       \displaystyle z = \frac{10-15}{\sqrt{7.5}} = -1.820

      P(z \leq -1.820)=P(z \geq 1.820)(片側検定のP値)を求めるとP=0.0344となります。また、P(|z| \geq 1.820)(両側検定のP値)を求めるとP=0.0688となります。

6. ノンパラメトリック検定


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)