BellCurve 統計WEB

バナー広告掲載募集のお知らせ
バナー広告掲載募集のお知らせ
  • Step2. 中級編
  • 3. 統計的検定

3-4. ノンパラメトリック検定 – 対応のない2標本の差の検定


24-4章で対応のない2標本t検定について学びました。t検定は2つの群の母集団の分散が等しく、ともに独立した正規分布に従うことを前提としています。このように、母集団分布に特定の分布を仮定した検定のことを「パラメトリック検定」といいます。一方、母集団分布に正規分布のような特定の分布を仮定せず、分布の形によらずに行える検定のことを「ノンパラメトリック検定」といいます。

ここでは、対応のない2標本t検定のノンパラメトリック検定版である「ウィルコクソンの順位和検定」と「並べ替え検定」について学びます。

■ウィルコクソンの順位和検定

まず、比較する2標本の全体の値に対して順位をつけます。タイデータに対しては、順位の中央値を使用します。付与した順位を標本ごとに足し合わせ、順位の合計値を算出します。ここでは2つの標本をABとし、順位の合計値をそれぞれW_AW_B、サンプルサイズをそれぞれn_An_Bとします。

【タイ(同順位)データが無い場合】

W=min(W_A, W_B)となります。ここではW_A<W_Bとします。

 \displaystyle E(W) = \frac{n_A(n_A + n_B +1)}{2}
 \displaystyle V(W) = \frac{n_A n_B(n_A + n_B +1)}{12}

【タイデータがある場合】

n_{t}はタイデータの個数を、t_iは各タイデータ含まれるデータの数を表します。

 \displaystyle E(W) = \frac{n_A(n_A + n_B +1)}{2}
 \displaystyle V(W) = \frac{n_A n_B(n_A + n_B +1)}{12} - \frac{n_A n_B \displaystyle \sum_{i = 1}^{n_{t}} t_i({t_i}^2-1)}{12(n_A + n_B)(n_A + n_B -1)}

これらのE(W)V(W)から算出された\displaystyle \frac{W-E(W)}{\sqrt{V(W)}}が正規分布に従うことを利用して検定を行います。



まず、タイデータを含まないデータを使ってウィルコクソンの順位和検定を行ってみます。

No.Aチームの年齢Bチームの年齢
12630
23235
32536
42028
52931

  1. 全体の値に対して順位を付与
  2. No.Aチームの年齢Bチームの年齢
    136
    289
    3210
    414
    557

  3. 標本ごとに順位の和を算出
  4. No.Aチームの年齢Bチームの年齢
    136
    289
    3210
    414
    557
    合計1936

  5. ウィルコクソンの順位和検定を行う
  6. この例題ではW_A<W_Bであることから、W=19となります。

     \displaystyle E(W) = \frac{5(5 + 5 +1)}{2} = 27.5
     \displaystyle V(W) = \frac{5 \times 5(5 + 5 +1)}{12} = 22.92

    これらの値から算出したz値を用いて検定を行います。

     \displaystyle z = \frac{W-E(W)}{\sqrt{V(W)}} = \frac{19-27.5}{\sqrt{22.92}} = -1.775

    標準正規分布表よりP>zとなる確率(片側検定のP値)を求めるとP=0.0379となります。

    P>|z|となる確率(両側検定のP値)を求めるとP=0.379 \times 2 = 0.0758となります。すなわち2群間で年齢の分布に有意差があるとは言えないと結論付けられます。


次に、タイデータを含むデータを使ってスピアマンの順位相関係数を求めてみます。

No.Aチームの年齢Bチームの年齢
12530
23235
32536
42028
52930

  1. 全体の値に対して順位を付与
  2. No.Aチームの年齢Bチームの年齢
    12.56.5
    289
    32.510
    414
    556.5

  3. 標本ごとに順位の和を算出
  4. No.Aチームの年齢Bチームの年齢
    12.56.5
    289
    32.510
    414
    556.5
    合計1936

  5. ウィルコクソンの順位和検定を行う
  6. この例題ではW_A<W_Bであることから、W=19となります。

     \displaystyle E(W) = \frac{5(5 + 5 +1)}{2} = 27.5
     \displaystyle V(W) = \frac{5 \times 5(5 + 5 +1)}{12} - \frac{5 \times 5 \times (2(2^2-1) + 2(2^2-1))}{12(5 + 5)(5 + 5 -1)} = 22.92 - 0.28 = 22.64

    これらの値から算出したz値を用いて検定を行います。

     \displaystyle z = \frac{W-E(W)}{\sqrt{V(W)}} = \frac{19-27.5}{\sqrt{22.91}} = -1.786

    P>|z|となる確率(両側検定のP値)を求めるとP=0.0740となります。


■並べ替え検定(permutation test)

すべてのデータを使って並び替えて得られた全ての組み合わせのうち、元データの組み合わせの平均値の差より大きな値が得られる確率を算出し、この確率を元に検定を行う方法です。データにタイデータを含んでいてもいなくても、計算方法は変わりません。


次のデータを使って並べ替え検定を行ってみます。

No.Aチームの年齢Bチームの年齢
12628
23035
32536

  1. すべてのデータを用いて2群に分ける全ての組み合わせを考える
  2. 全部で6個のデータを3個ずつ2群に分けるので、_6C_3=20で20通りの組み合わせが存在します。

    No.Aチームの組み合わせBチームの組み合わせ
    125, 26, 2830, 35, 36
    225, 26, 3028, 35, 36
    325, 26, 3530, 28, 36
    425, 26, 3630, 35, 28
    525, 28, 3026, 35, 36
    625, 28, 3526, 30, 36
    725, 28, 3626, 30, 35
    825, 30, 3526, 28, 36
    925, 30, 3626, 28, 35
    1025, 35, 3626, 28, 30
    1126, 28, 3025, 35, 36
    1226, 28, 3525, 30, 36
    1326, 28, 3625, 30, 35
    1426, 30, 3525, 28, 36
    1526, 30, 3625, 28, 35
    1626, 35, 3625, 28, 30
    1728, 30, 3525, 26, 36
    1828, 30, 3625, 26, 35
    1928, 35, 3625, 26, 30
    2030, 35, 3625, 26, 28

  3. 20通りの組み合わせそれぞれの平均値の差を求める
  4. No.Aチームの組み合わせBチームの組み合わせ平均値の差(B-A)
    125, 26, 2830, 35, 367.3
    225, 26, 3028, 35, 366
    325, 26, 3530, 28, 362.7
    425, 26, 3630, 35, 282
    525, 28, 3026, 35, 364.7
    625, 28, 3526, 30, 361.3
    725, 28, 3626, 30, 350.7
    825, 30, 3526, 28, 360
    925, 30, 3626, 28, 35-0.7
    1025, 35, 3626, 28, 30-4
    1126, 28, 3025, 35, 364
    1226, 28, 3525, 30, 360.7
    1326, 28, 3625, 30, 350
    1426, 30, 3525, 28, 36-0.7
    1526, 30, 3625, 28, 35-1.3
    1626, 35, 3625, 28, 30-4.7
    1728, 30, 3525, 26, 36-2
    1828, 30, 3625, 26, 35-2.7
    1928, 35, 3625, 26, 30-6
    2030, 35, 3625, 26, 28-7.3

  5. 観測された組み合わせ以上に差が大きくなる組み合わせを選ぶ
  6. この例題ではハイライトで示した2つの組み合わせが、観測された組み合わせのときの平均値の差B-A=6以上となる組み合わせです。

    No.Aチームの組み合わせBチームの組み合わせ平均値の差(B-A)
    125, 26, 2830, 35, 367.3
    225, 26, 3028, 35, 366
    525, 28, 3026, 35, 364.7
    1126, 28, 3025, 35, 364
    325, 26, 3530, 28, 362.7
    425, 26, 3630, 35, 282
    625, 28, 3526, 30, 361.3
    725, 28, 3626, 30, 350.7
    1226, 28, 3525, 30, 360.7
    825, 30, 3526, 28, 360
    1326, 28, 3625, 30, 350
    925, 30, 3626, 28, 35-0.7
    1426, 30, 3525, 28, 36-0.7
    1526, 30, 3625, 28, 35-1.3
    1728, 30, 3525, 26, 36-2
    1828, 30, 3625, 26, 35-2.7
    1025, 35, 3626, 28, 30-4
    1626, 35, 3625, 28, 30-4.7
    1928, 35, 3625, 26, 30-6
    2030, 35, 3625, 26, 28-7.3

  7. 検定を行う
  8. 全ての組み合わせ20通りのうち、>観測された組み合わせ以上に差が大きくなる組み合わせは2通りなので、片側検定の場合のP値は次のように計算できます。

     \displaystyle P = \frac{2}{20} = 0.1

    したがって、両側検定の場合のP値はP = 0.1 \times 2 = 0.2となります。すなわち2群間で年齢の分布に有意差があるとは言えないと結論付けられます。


3. 統計的検定


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


統計WEBを運営するBellCurveは、統計解析ソフト「エクセル統計」を開発・販売しています! 統計解析ソフト「エクセル統計」をインストール後のExcel上のタブとメニュー エクセル統計ジャケット画像


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)


【PR】