BellCurve 統計WEB

社会人のためのデータ分析講座。Aidemy Premium
  • Step2. 中級編
  • 6. ノンパラメトリック検定

6-3. ノンパラメトリック検定 – 対応のない2標本の差の検定


24-4章で対応のない2標本t検定について学びました。t検定は2つの群の母集団の分散が等しく、ともに独立した正規分布に従うことを前提としています。

ここでは、対応のない2標本t検定のノンパラメトリック検定版である「ウィルコクソンの順位和検定」と「並べ替え検定」について学びます。

■ウィルコクソンの順位和検定

まず、比較する2標本の全体の値に対して順位をつけます。タイデータに対しては、順位の中央値を使用します。付与した順位を標本ごとに足し合わせ、順位の合計値を算出します。ここでは2つの標本をABとし、順位の合計値をそれぞれW_AW_B、サンプルサイズをそれぞれn_An_Bとします。2つの合計順位のうち小さい方を検定統計量 W=min(W_A, W_B) とします。順位の全ての組み合わせ {n_A+n_B}_C_{n_A} のうち、W が観測値以下の値を取る確率がP値となります。

また、サンプルサイズが大きい場合は、次の式より得られた E(W)V(W) から算出された \displaystyle \frac{W-E(W)}{\sqrt{V(W)}} が正規分布に従うことを利用して検定を行います。

【タイ(同順位)データが無い場合】

ここではW_A<W_B (W=W_A)とします。

 \displaystyle E(W) = \frac{n_A(n_A + n_B +1)}{2}
 \displaystyle V(W) = \frac{n_A n_B(n_A + n_B +1)}{12}

【タイデータがある場合】

n_{t}はタイデータの個数を、t_iは各タイデータ含まれるデータの数を表します。

 \displaystyle E(W) = \frac{n_A(n_A + n_B +1)}{2}
 \displaystyle V(W) = \frac{n_A n_B(n_A + n_B +1)}{12} - \frac{n_A n_B \displaystyle \sum_{i = 1}^{n_{t}} t_i({t_i}^2-1)}{12(n_A + n_B)(n_A + n_B -1)}


まず、サンプルサイズが小さいデータを使ってウィルコクソンの順位和検定を行ってみます。

No.Aチームの年齢Bチームの年齢
12630
23235
32536
420-

  1. 全体の値に対して順位を付与
  2. No.Aチームの年齢Bチームの年齢
    134
    256
    327
    41-

  3. 標本ごとに順位の和を算出
  4. No.Aチームの年齢Bチームの年齢
    134
    256
    327
    41-
    合計1117

  5. ウィルコクソンの順位和検定を行う
  6. この例題では W_A<W_B であることから、W=11 となります。W \leq 11 となる組み合わせは

    • (A, B) = ({1, 2, 3, 4}, {5, 6, 7}) ※W=10
    • (A, B) = ({1, 2, 3, 5}, {4, 6, 7}) ※W=11

    の2通りです。順位の全ての組み合わせは _{7}C_{4}=35 なので、W \leq 11 となる確率(片側検定のP値)を求めると\displaystyle P=\frac{2}{35} = 0.057となります。

    両側検定のP値を求めるとP=0.057\times 2 = 0.114となります。すなわち2群間で年齢の分布に有意差があるとは言えないと結論付けられます。

    
    
    

    次に、タイデータを含まないデータから算出した E(W)V(W) を使ってウィルコクソンの順位和検定を行ってみます。

    No.Aチームの年齢Bチームの年齢
    12630
    23235
    32536
    42028
    52931

    1. 全体の値に対して順位を付与
    2. No.Aチームの年齢Bチームの年齢
      136
      289
      3210
      414
      557

    3. 標本ごとに順位の和を算出
    4. No.Aチームの年齢Bチームの年齢
      136
      289
      3210
      414
      557
      合計1936

    5. ウィルコクソンの順位和検定を行う
    6. この例題ではW_A<W_Bであることから、W=19となります。

       \displaystyle E(W) = \frac{5(5 + 5 +1)}{2} = 27.5
       \displaystyle V(W) = \frac{5 \times 5(5 + 5 +1)}{12} = 22.92

      これらの値から算出したz値を用いて検定を行います。

       \displaystyle z = \frac{W-E(W)}{\sqrt{V(W)}} = \frac{19-27.5}{\sqrt{22.92}} = -1.775

      標準正規分布表よりP>zとなる確率(片側検定のP値)を求めるとP=0.0379となります。

      P>|z|となる確率(両側検定のP値)を求めるとP=0.379 \times 2 = 0.0758となります。すなわち2群間で年齢の分布に有意差があるとは言えないと結論付けられます。

    
    

    最後に、タイデータを含むデータから算出した E(W)V(W) を使ってウィルコクソンの順位和検定を行ってみます。

    No.Aチームの年齢Bチームの年齢
    12530
    23235
    32536
    42028
    52930

    1. 全体の値に対して順位を付与
    2. No.Aチームの年齢Bチームの年齢
      12.56.5
      289
      32.510
      414
      556.5

    3. 標本ごとに順位の和を算出
    4. No.Aチームの年齢Bチームの年齢
      12.56.5
      289
      32.510
      414
      556.5
      合計1936

    5. ウィルコクソンの順位和検定を行う
    6. この例題ではW_A<W_Bであることから、W=19となります。

       \displaystyle E(W) = \frac{5(5 + 5 +1)}{2} = 27.5
       \displaystyle V(W) = \frac{5 \times 5(5 + 5 +1)}{12} - \frac{5 \times 5 \times (2(2^2-1) + 2(2^2-1))}{12(5 + 5)(5 + 5 -1)} = 22.92 - 0.28 = 22.64

      これらの値から算出したz値を用いて検定を行います。

       \displaystyle z = \frac{W-E(W)}{\sqrt{V(W)}} = \frac{19-27.5}{\sqrt{22.91}} = -1.786

      P>|z|となる確率(両側検定のP値)を求めるとP=0.0740となります。

    
    

    ■並べ替え検定(permutation test)

    すべてのデータを使って並び替えて得られた全ての組み合わせのうち、元データの組み合わせの平均値の差より大きな値が得られる確率を算出し、この確率を元に検定を行う方法です。データにタイデータを含んでいてもいなくても、計算方法は変わりません。

    
    

    次のデータを使って並べ替え検定を行ってみます。

    No.Aチームの年齢Bチームの年齢
    12628
    23035
    32536

    1. すべてのデータを用いて2群に分ける全ての組み合わせを考える
    2. 全部で6個のデータを3個ずつ2群に分けるので、_6C_3=20で20通りの組み合わせが存在します。

      No.Aチームの組み合わせBチームの組み合わせ
      125, 26, 2830, 35, 36
      225, 26, 3028, 35, 36
      325, 26, 3530, 28, 36
      425, 26, 3630, 35, 28
      525, 28, 3026, 35, 36
      625, 28, 3526, 30, 36
      725, 28, 3626, 30, 35
      825, 30, 3526, 28, 36
      925, 30, 3626, 28, 35
      1025, 35, 3626, 28, 30
      1126, 28, 3025, 35, 36
      1226, 28, 3525, 30, 36
      1326, 28, 3625, 30, 35
      1426, 30, 3525, 28, 36
      1526, 30, 3625, 28, 35
      1626, 35, 3625, 28, 30
      1728, 30, 3525, 26, 36
      1828, 30, 3625, 26, 35
      1928, 35, 3625, 26, 30
      2030, 35, 3625, 26, 28

    3. 20通りの組み合わせそれぞれの平均値の差を求める
    4. No.Aチームの組み合わせBチームの組み合わせ平均値の差(B-A)
      125, 26, 2830, 35, 367.3
      225, 26, 3028, 35, 366
      325, 26, 3530, 28, 362.7
      425, 26, 3630, 35, 282
      525, 28, 3026, 35, 364.7
      625, 28, 3526, 30, 361.3
      725, 28, 3626, 30, 350.7
      825, 30, 3526, 28, 360
      925, 30, 3626, 28, 35-0.7
      1025, 35, 3626, 28, 30-4
      1126, 28, 3025, 35, 364
      1226, 28, 3525, 30, 360.7
      1326, 28, 3625, 30, 350
      1426, 30, 3525, 28, 36-0.7
      1526, 30, 3625, 28, 35-1.3
      1626, 35, 3625, 28, 30-4.7
      1728, 30, 3525, 26, 36-2
      1828, 30, 3625, 26, 35-2.7
      1928, 35, 3625, 26, 30-6
      2030, 35, 3625, 26, 28-7.3

    5. 観測された組み合わせ以上に差が大きくなる組み合わせを選ぶ
    6. この例題ではハイライトで示した2つの組み合わせが、観測された組み合わせのときの平均値の差B-A=6以上となる組み合わせです。

      No.Aチームの組み合わせBチームの組み合わせ平均値の差(B-A)
      125, 26, 2830, 35, 367.3
      225, 26, 3028, 35, 366
      525, 28, 3026, 35, 364.7
      1126, 28, 3025, 35, 364
      325, 26, 3530, 28, 362.7
      425, 26, 3630, 35, 282
      625, 28, 3526, 30, 361.3
      725, 28, 3626, 30, 350.7
      1226, 28, 3525, 30, 360.7
      825, 30, 3526, 28, 360
      1326, 28, 3625, 30, 350
      925, 30, 3626, 28, 35-0.7
      1426, 30, 3525, 28, 36-0.7
      1526, 30, 3625, 28, 35-1.3
      1728, 30, 3525, 26, 36-2
      1828, 30, 3625, 26, 35-2.7
      1025, 35, 3626, 28, 30-4
      1626, 35, 3625, 28, 30-4.7
      1928, 35, 3625, 26, 30-6
      2030, 35, 3625, 26, 28-7.3

    7. 検定を行う
    8. 全ての組み合わせ20通りのうち、>観測された組み合わせ以上に差が大きくなる組み合わせは2通りなので、片側検定の場合のP値は次のように計算できます。

       \displaystyle P = \frac{2}{20} = 0.1

      したがって、両側検定の場合のP値はP = 0.1 \times 2 = 0.2となります。すなわち2群間で年齢の分布に有意差があるとは言えないと結論付けられます。


6. ノンパラメトリック検定


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


統計WEBを運営するBellCurveは、統計解析ソフト「エクセル統計」を開発・販売しています! 統計解析ソフト「エクセル統計」をインストール後のExcel上のタブとメニュー エクセル統計ジャケット画像


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)


【PR】