クラメールのV

r行×c列のクロス集計表における行要素と列要素の関連の強さを示す指標。

0\leq V\leq 1の値をとり、1に近いほど関連が強い。クラメールの連関係数(Cramer's coefficient of association)とも言う。サンプルサイズをn、カイ二乗値を\chi^2とすると、クラメールのVは以下の式で表される。

 \displaystyle V = \sqrt{\frac{\chi^2}{n \times \min (r-1,c-1)}}

LaTex ソースコード

LaTexをハイライトする

クラスター分析

クラスター分析には複数の手法があり、大きくは階層型と非階層型の2種類に分かれる。

階層型では、得られた標本において、距離や相関係数によってケース間の類似度を求め、類似度の近いものから順にクラスターに結合していく。最初はケースの数だけクラスターがあるが、結合するたびにクラスターの数は1つずつ減っていく。この結合の過程をグラフにしたものがデンドログラムである。

階層的のクラスター間の距離計算の方法には以下のようなものがある。

  • 最短距離法
  • 最長距離法
  • 群平均法
  • 重心法
  • メディアン法
  • ウォード法

非階層型ではクラスター内ではできるだけ均一に、クラスター間はできるだけ異なるように分類する。非階層型クラスター分析の代表的手法の1つにk-means法がある。

クラスカル=ウォリス検定

順位を用いたノンパラメトリック検定の一つで、対応のない3つ以上のグループ間の差の有無を調べたいときに用いられる。H検定とも言う。

k群のデータをひとまとめにして小さいデータより順位をつけ、同順位の場合は該当する順位の平均値を割り当てる。次に群ごとに順位和R_iを求め、このR_iと各群のサンプルサイズn_iを用いて下式からクラスカル=ウォリスの統計量Hを計算する(Nは全データ数を表す)。Hは近似的に自由度(k-1)のカイ二乗分布に従うことを用いて検定を行う。

 \displaystyle H = \frac{12}{N(N + 1)}   \sum_{i = 1}^k {\frac {{R_i}^2}{n_i}} - 3(N + 1)

LaTex ソースコード

LaTexをハイライトする

グッドマン=クラスカルのタウ(τ)

r行×c列のクロス集計表における行要素と列要素の関連の強さを示す指標。

0から1までの値をとり、1に近いほど関連が強い。行を従属変数、列を独立変数としたとき、クロス集計表にない新しい観測値が行のどの水準に属するかを予測した場合の誤差が、その観測値の列の水準がわかることによってどの程度減少するかを求めたもの。行を従属変数とした場合と列を従属変数とした場合の2種類定義できる。

グッドマン=クラスカルのガンマ(γ)

順位相関係数の一種。

対応する2つの変量(x_i, y_i)(ただし、i=1,2,・・・,n)があるとき、その中から取り出した(x_s, y_s)(x_t, y_t)(ただし、s < t)において、

P = (x_sx_ty_sy_tの大小関係が同じ向きである組の数)

Q = (x_sx_ty_sy_tの大小関係が異なる向きである組の数)

とおくと、グッドマン=クラスカルのガンマは以下の式で表される。

 \displaystyle \gamma = \frac{P - Q}{P + Q}

グッドマン=クラスカルのガンマは-1から1までの値をとる。x_s=x_ty_s=y_tがない(同順位がない)場合はケンドールの順位相関係数の\tau_aおよび\tau_bに等しい。また、行のカテゴリーと列のカテゴリーのいずれにも順序が存在するようなクロス集計表においてもガンマを定義することができる。2行×2列クロス集計表の場合のガンマをユールのQと呼ぶこともある。

LaTex ソースコード

LaTexをハイライトする