重み付きカッパ係数―順序尺度の場合のカッパ係数

※コラム「統計備忘録」の記事一覧はこちら


カッパ係数は名義尺度か順序尺度かで計算方法が異なります。前回説明したのは名義尺度のカッパ係数(simple kappa coefficient)です。順序尺度に用いるカッパ係数のことを重み付きカッパ係数(weighted kappa coefficient)と呼びます。

例えば、2人の医師AとBが同じ 100人の患者さんについて、疾患の重症度を 1点から 5点で評価するような場合を考えてみます。ある患者さんについてAが 2点でBが 3点と評価するのと、Aが 1点でBが 5点と評価するのでは、前者の方が評価は似通っていると言えます。完全に評価が一致している場合を 1、最も評価が隔たっている場合を 0とするような重みをつけ、完全に評価が一致しないケースも考慮して一致度を計算したのが、重み付けカッパ係数です。

重みの計算方法は1次の重みと2次の重みの2種類があります。1次の重み(linear weights)の計算式*1は次の通り。5段階評価なら Cc は 5になります。2人の評価が 2点と 3点なら重みは 1 - |2-3| / (5-1) = 0.75 になります。



2次の重み(quadratic weights)の計算式*2は次の通りです。2人の評価が 2点と 3点なら重みは 1 - (2-3)2 / (5-1)2 = 0.9375 になります。



単に重み付きカッパ係数といった場合、後者の2次の重み付けをしていることが多いようです。なお、エクセル統計によりカッパ係数を求めると 3種のカッパ係数を無条件に同時に算出します。尺度水準に合わせて使い分けください。

2008.10.31

*1 Cicchetti and Alisonによる(1971)
*2 Fleiss and Cohenによる(1973)

2人の鑑定結果―カッパ係数による一致度の計算

※コラム「統計備忘録」の記事一覧はこちら


2人の鑑定家 A と B が、ゴッホの作品と思われている 100枚の絵画を鑑定しました。Aは 40枚が真作で 60枚が贋作、Bは真作も贋作も半々の 50枚ずつであるとの鑑定を下しました。2人の鑑定が一致したのは真作が 30枚と贋作が 40枚で合わせて 70枚です。

このような場合、2人の鑑定が、どの程度一致していると考えればよいのでしょうか。一致の度合いを 0 から 1 の数値で表すことはできないでしょうか。一致度を計算してみたいと思います。

まず、何を 0 とするかです。2人の鑑定結果がまったく異なる根拠によるものであるなら、2人の鑑定結果が一致するのは偶然によってのみということも考えられます。偶然に鑑定が一致する絵の枚数の期待値は、次の表のように 2人が同じ判断になる確率を求め、さらに全体の絵の枚数を掛ければ推測できます。

一致度が 0 でも(偶然だけでも)、 真作 20枚と贋作 30枚 の合わせて 50枚は、鑑定が一致する可能性が高いだろうと言えます。この計算は、「独立性の検定」の記事で紹介した「独立性の検定で完全に帰無仮説の期待度数を求める方法」と同じですが、利用するのはクロス集計表の対角要素、色のついたところだけです。

続いて、何を 1 とするかは、当然、100枚すべての真贋が一致したときということになります。この 100枚と 50枚の差である 50枚を一致度を計算するときの分母にします。

さて、2人の鑑定が一致した絵の枚数は 70枚でしたから、ここからも偶然だけで一致する場合の期待値 50枚を引きます。残りの 20枚が偶然以外で鑑定が一致した絵の枚数ということになります。最後に、この 20枚を先ほどの分母の50枚で割ってやります。20 / 50 = 0.4 が 2人の鑑定の一致度と言えそうです。この一致度のことをカッパ係数(Cohen's kappa coefficient)と呼びます。

二項検定

※コラム「統計備忘録」の記事一覧はこちら


日本人の左利きの割合は 10%程度と言われています。ある小学校のクラスを調べたところ 30人中 6人が左利きでした。このクラスの左利きの子供の出現率が、10%より有意に大きいといえるか検定してみましょう。Excelなら次のように式を入力するだけです。

=1-BINOMDIST(5,30,0.1,TRUE)

式中の BINOMDIST(5,30,0.1,TRUE) は、左利きの割合が 0.1(10%)の母集団から 30人を抽出して、左利きが 5人以下の組み合わせになる確率です。1からこの確率を引いた残りは、左利きが 10%の集団から 30人を調べて偶然で 6人以上になる確率を意味し、そのまま片側二項検定の p値になります。結果は 0.07319。有意水準を 0.05 としていたなら有意に大きいとはいえません。

二項検定を利用できるのは、この例のような左利きと右利きとか、コインの表か裏かとかいうような二項分布に従うケースです。F分布や正規分布を用いた母比率の検定と異なり正確な確率を計算できるので、n が大きくないときは二項検定を利用した方が賢明です。

病気である確率

※コラム「統計備忘録」の記事一覧はこちら


今年になって人間ドックを受けたところリウマチ因子の検査で陽性反応が出た。リウマチ因子についての説明には「陽性の人の約 40% が関節リウマチである」と書いてある。人間ドックの医師も、掛かりつけの医師も「今のところ心配しなくていいですよ」と言っているが、本当に心配ないのだろうか。気になって仕方が無いので、関節リウマチである確率をベイズの定理を用いて計算してみることにした。

ベイズの定理とは、事前確率と既知の条件付き確率から事後確率を求める公式で、今回の場合、事前確率を日本人の関節リウマチの有病率とすると、事後確率は検査で陽性反応を示した人が関節リウマチである確率となる。

まず、関節リウマチの有病率については、リウマチ情報センターのホームページによると日本全国の患者数は 70万人と書いてある。他の幾つかの情報を調べてみたが多めに見て約 1%というところらしい。

続いて、「関節リウマチの人が検査で陽性になる確率(真陽性率※)」と「関節リウマチでない人が検査で陽性になる確率(偽陽性率)」の2つの条件付き確率を知る必要がある。リウマチ因子の検査の真陽性率は、どのホームページを調べても 80% 前後と書いてある。偽陽性率については、少ないところで 2%、多いところでは 10-15% という数字もあった。どの数字を使うか判断が付かないので 2% と 5% の2通りのケースを求めてみることにする。

事後確率を求める式は次の通りだ。パーセンテージは 100 で割ってから代入してほしい。



この式がピンと来ない時は、人数に換算してみると分かりやすい。仮に 1万人の人が検査を受けたとして、検査結果が陽性で、かつ関節リウマチを患っている人は 80人( = 0.8 × 0.01 × 1万人)。陽性になったけれども関節リウマチでない人は、偽陽性率が 2% の検査なら 198人( = 0.02 × 0.99 × 1万人)である。2つの人数を合わせた 278人が陽性反応を示した人数になる。このうちの関節リウマチの人の割合を求めれば事後確率となる。



有病率 1%, 真陽性率 80%, 偽陽性率 2% の場合の1万人内訳
実際に病気に
かかっている
実際は病気に
かかっていない
検査結果が陽性 真陽性
80人
偽陽性
198人
検査結果が陰性 偽陰性
20人
真陰性
9,702人


さて、計算の結果であるが、偽陽性率が 2% だとすると事後確率は 28.8%、偽陽性率が 5% だとすると 13.9% だった。どうやら説明書きにあった 40% という数字は高すぎるようである。どのようなカラクリで 40% になったのかは分からないが、私としては、医師の言葉を信じて来年の検査まで様子見にしようと思っている。


※真陽性率は「感度」とも呼ぶ。感度に対し「特異度」という言葉がある。これは、健康な人が陰性になる確率、真陰性率だ。感度も特異度も高いのが優れた検査法と言える。感度を上げるために検査の判定基準を甘くしすぎると、検査法によっては偽陽性が増え特異度が下がる。逆に判定基準を厳しくしすぎると病気にかかっている人まで見逃され検査としての意味を成さなくなる。適切な判定基準を検討するための手法の1つにROC曲線がある。

多重共線性をチェックする

※コラム「統計備忘録」の記事一覧はこちら


エクセル統計には重回帰分析の出力にトレランスとVIFが含まれています。この2つの数値は多重共線性をチェックするために用います。

多重共線性には正確多重共線性と準多重共線性があります。正確多重共線性とは、相関行列の逆行列が求められないことを言います。逆行列を計算できない原因は、変数の個数がデータの数より多いか、変数間に1次結合があるかのどちらかです。逆行列を求められないので重回帰分析は途中で打ち切られます



さて、本来、変数間には1次結合があるはずなのに、測定誤差などによる僅かな誤差があって1次結合が崩れ、逆行列が求まることがあります。これが準多重共線性の起こっている状況です。重回帰分析の結果もでてきますが、結果の信頼性は低く、データが少しでも増えたり減ったりする度に、偏回帰係数が大きく変化してしまう可能性があります。

通常、トレランスが 0.1以下の場合に準多重共線性があると考えます。トレランスの計算方法は統計用語集に難しそうに書いてありますが、単純にすると次の通りです。

 トレランス=1-決定係数
 
この決定係数は、重回帰分析に用いようとした説明変数の中から、変数1個を目的変数にし、残りの変数を説明変数にして重回帰分析を行うと得られます。決定係数が 0.9(重相関係数に直すと約 0.95)以上と変数間が強い相関を示すとき、トレランスは 0.1 以下になります。

VIFの訳語は分散拡大係数です。トレランスが分かれば VIF の計算は簡単です。VIF が 10 以上なら、準多重共線性を疑うということになります。

 VIF=1/トレランス

エクセル統計には、多重共線性に対しもう1つ機能があります。重回帰分析のダイアログに「線形結合をしている変数を除いて分析する」というオプションがあり、これをチェックしていると、1次結合による正確多重共線性がある場合、1次結合している変数の片方をプログラムが勝手に除いて重回帰分析を行います。

このオプションをチェックしておけば、「逆行列が求められません」というメッセージは表示されません。

Zipfの法則

※コラム「統計備忘録」の記事一覧はこちら


Zipf はジップ、または、ジフと読みます。アメリカの言語学者のジョージ・キングズリー・ジフが発見した経験則です。サイズの大きさで順位(k)を付けた場合、k番目のサイズは、1番目のサイズの 1/k になるというものです。ウィキペディアにもう少し詳しい説明があります。

さて、私自身は、那須川哲哉氏の「テキストマイニングを使う技術/作る技術」を読むまでこの法則を知らなかったのですが、那須川氏によるとテキストマイニングの過程で形態素解析を行うと、対象テキストにおける語の出現頻度が法則に従うとのことでした。そこで、手持ちのアンケートの自由回答をトレンドサーチにかけて調べてみたら、かなり法則に近い分布になるものがありました。それ以来、つい、数字が並んでいるのを見ると、法則があてはまるかどうか気になってしまいます。

気にしていると色々とみつかるのですが、最もよくあてはまった例を1つ紹介します。それは、検索サイトから、当サイト( https://bellcurve.jp/ )のホームページへアクセスする際に用いられた、検索キーワードの頻度です。

最近1ヶ月の検索キーワード
順位 キーワード 頻度
1位 エクセル 6,415
2位 統計 3,355
3位 正規分布 1,928
10位 アンケート 772
100位 SD 60
1000位 30年前 5
 

2位の「統計」を1位の「エクセル」の頻度で割ると0.53、3位の「正規分布」は0.30、100位の「SD」で0.01と、法則の 1/k に近い値です。ちなみに、法則から予想される出現回数と実際の出現回数との相関係数は0.998と非常に強い相関を示しました。ページ単位に調べてみるとかなりばらつきがあるので、法則があてはまるにはページ数や文書量がある程度必要なのかもしれません。

ジップの法則以外にも、パレートの法則や、80:20の法則などが知られています。皆さんも、身近な数字にあてはめてみてはどうでしょうか。

局所管理の原則―フィッシャーの3原則(3)

※コラム「統計備忘録」の記事一覧はこちら


今回は、フィッシャーの3原則の最後、局所管理について書きます。



局所管理 local control
1919年、フィッシャーは、ピアソンからゴールトン生物測定研究室の主任統計学者としての採用の申し出を受けましたが、ピアソンに反発していたフィッシャーは申し出を断り、ロンドン郊外にあるロザムステッド農事試験場の研究員になりました。1933年にピアソンの後任としてロンドン大学の優生学の教授になるまで、この農事試験場で研究を続け、その研究成果が「実験計画法」としてまとめられて1935年に出版されました。

さて、フィッシャーが着任するまで、ロザムステッド農事試験場では、肥料の効果を調べるために、広い農地いっぱいに1つの肥料を撒いて小麦やジャガイモなどの収量を測っていました。肥料の種類の数だけ農地を必要としていました。そこで、フィッシャーは農地を小区画(これをブロックと呼びます)に分けて、区画内では列ごとに異なる肥料を与えるよう実験方法を改めます。ブロック内のどの列にどの肥料を与えるかはランダムに割り付けます。こうすることで、1つの農地から、複数の肥料について反復のあるデータが得られるようになり、実験の効率も精度も上がりました。この実験方法は「乱塊法」と名づけられています。




<乱塊法による3肥料・3ブロックの割り付け例>



乱塊法によって、データの反復を得ることに成功しましたが、もう1つ問題が残っています。広い農地のことですから、ブロックによって土壌や空気の流れが異なり、収量に影響するかもしれません。ブロックによる誤差(収量のばらつき)が大きくなってしまうと、一元配置分散分析では肥料間の差を検出できなくなる可能性があります。そこでフィッシャーはブロックも分散分析の要因に加えることで、ブロックによる誤差を全体の誤差から分離し、分析の精度を上げることにしました。この分析手順を追ってみましょう。




まず、肥料ごとに1列にまとまるように収量のデータを次のように整理します。

このデータを肥料の違いだけを要因とした一元配置分散分析にかけてしまうと、結果は次の通りです。



Excelの分析ツールによる一元配置分散分析の結果




「グループ間(肥料の違い)」の行の「P-値」は「0.119864」で5%の有意水準で判断すると、肥料間の収量の差は有意ではないという結論になってしましいます。グループ内(普通の統計ソフトなら、ここは誤差と表示されます)の変動にブロックによる収量のばらつきが含まれ、誤差変動が大きくなってしまっているからです。




それでは、同じデータを「繰り返しのない二元配置分散分析」にかけてみます。分析結果は次の通りです。




Excelの分析ツールによる繰り返しのない二元配置分散分析の結果



変動要因の「列」が肥料の違いになります。変動要因の分散を誤差の分散で割った分散比(F値)の「P-値」は「0.025895」ですから、5%の有意水準で「肥料により収量が異なった」と判定できます。一元配置分散分析とは異なる結論です。

なぜ、結論が変わったかというと、一元配置分散分析のときの誤差の変動からブロック(「行」のところです)による変動が取り除かれたことで(47.33333 - 38=9.33333)、誤差の分散が小さくなったからです。肥料の分散は一元配置分散分析と同じで、誤差の分散だけ小さくなったため、分散比としては二元配置分散分析の方が大きくなり有意判定が変わったのです。

話が長くなりましたが、局所管理とは「データのブロック化とブロックを要因に加えた分散分析」のことです。例えば、人間を対象にした実験であれば、実験要因の違いよりも、被験者の個人差の方が大きくなることがままあります。このような場合は、被験者をブロックとして実験計画を組み、分散分析で被験者も要因に加えて分析すればよいのです。

無作為化の原則―フィッシャーの3原則(2)

※コラム「統計備忘録」の記事一覧はこちら


前回の続きです。第2の原則、無作為化について書きます。

 

無作為化 randomization
反復が多くなれば検出力は高まりますが、実験回数が増えて、実験期間が長引くか、期間を縮めるために複数の実験室や複数の人で実験をするということになります。そうすると、実験したときの気温や湿度の違い、実験者の癖など、実験結果を歪めるかもしれない予測不能な系統誤差を生じる可能性があります。

これらの予測不可能な系統誤差を確率誤差に取り込んでしまう方法があります。その方法が無作為化です。

フィッシャーの実験計画法の本には、紅茶を飲んで、その紅茶が紅茶を先に注いだのかミルクを先に注いだのかを当てられる、婦人の話が出てきます。本では、婦人が味の違いを分かっているのかを確かめるには、どう実験計画を組むかという話へ繋がっていきます。

さて、1杯ずつ試すだけなら偶々ということもありますから、まず、反復が必要です。かといって、何杯も飲むとなると、最後のほうでは、冷めてしまって味が変わるかもしれませんし、婦人の味覚が鈍っているかもしれません。ここまで思い至った人なら、できるだけ2種類の紅茶が試される条件を平等にするよう交互に飲ませることを思いつくかもしれません。しかし、この方法にもリスクがあります。婦人も交互に答えていただけで、偶然、順序が一致したというケースです。

紅茶を飲む順序によって生じる問題から逃れるにはどうしたらよいか。簡単な解決策があります。飲む順序を出鱈目にすることです。紅茶のカップに番号をつけ、同じ番号の札を用意し、札をよくシャッフルして飲む順番を決めればよいのです。順序をランダムにすることで順序の影響を確率的な誤差に転化できます。

created by Rinker
¥1,719 (2025/10/29 11:01:58時点 Amazon調べ-詳細)

無作為化は順序に限りません。例えば、新薬の治療効果を試す場合、被験者を2グループに分けて、一方のグループには新薬を投与し、もう一方のグループには何の効果も無い偽の薬(プラセボと言います)を投与し、2グループの変化を比較します。このとき、被験者がどちらのグループになるか、当然、無作為に決めるのですが、それだけでなく、医師もどちらの薬を投与しているか分からないようにします。これを二重盲検法 double blind test と言います。医師に教えないのは、被験者にどちらの薬を飲んでいるか覚らせないということの他に、「薬を飲ませているから効くはずだ」、「偽薬だから効くはずがない」といった医師の思い込みを避ける目的があります。

さて、サルツブルグの「統計学を拓いた異才たち」を読むと、紅茶の違いが分かる婦人は実在の人物で、実際に試してみたそうです。結果がどうなったかも、この本に書かれています。

反復の原則―フィッシャーの3原則(1)

※コラム「統計備忘録」の記事一覧はこちら


実験計画法や分散分析の本を読むと、必ずといってよいほど「フィッシャーの3原則」について書かれています。実験の精度を高めるために、どのように実験計画を組むべきかを説いたものです。実験系以外の人も覚えておいて損はないので簡単に触れておきます。

第1の原則 : 反復 replication
第2の原則 : 無作為化 randomization
第3の原則 : 局所管理 local control

なお、今回のコラムには確率誤差と系統誤差という2つの誤差が出てきます。2つの誤差の意味が分からない方は、「誤差の問題」の記事に書いていますので事前にお読みください。


反復 replication
1つ目は反復の原則です。1つの処理(分散分析の「水準」のこと)について2つ以上の測定を行うことです。それぞれの処理において1回の測定では、測定値に違いがあっても、系統誤差(処理の違いによる差)なのか、それとも確率誤差なのかは判断できません。そこで各処理ごとに複数回測定をして確率誤差のばらつきを調べます。確率誤差のばらつきが分かれば真の平均のとりうる範囲を推測でき、この範囲よりも系統誤差が大きければ、処理によって違いがあるという判断をくだせます。反復の原則とは確率誤差を知るためのものです。

この反復のことを分散分析では「繰り返し」と言います。1つの処理について測定を繰り返した回数を「繰り返し数」と言います。

Excelの分析ツールには「分散分析:繰り返しのない二元配置」と「分散分析:繰り返しのある二元配置」があります。例えば3品種の稲と2種類の肥料という2要因による収量の比較実験を行う場合、6通りの水準の組み合わせがあります。この6通りの組み合わせについて1つずつしか測定しないときは、「分散分析:繰り返しのない二元配置」を使用します。各品種については繰り返し数が2(肥料の種類)、各肥料については繰り返し数が3(稲の品種)になるので、それぞれの要因効果(主効果)を検出できます。しかし、品種と肥料の組み合わせから生じる効果(交互作用)は検出できません。


すべての組み合わせで繰り返し数が2以上であれば「分散分析:繰り返しのある二元配置」を利用できます。交互作用も検出できます。このとき気をつけることは、すべての繰り返し数を揃えることです。繰り返し数(分析ツールでは1標本あたりの行数)が不揃いになると要因間に相関が生じ(これを直交性が失われると言います)、実験の結果がどちらの要因の影響によるものか判断ができなくなります。統計ソフトの多くは繰り返し数が不揃いな場合に対応した計算方法を備えていますが、Excelの分析ツールでは繰り返し数の不揃いは不可です。


ちなみに「繰り返しのない二元配置分散分析」を英語にすると two-way factorial ANOVA without replication 、もしくは、two-way ANOVA without replicationとなります。「繰り返しのある二元配置分散分析」は without 以下を外します。紛らわしいことに「反復測定(重複測定) repeated measurement」による分散分析というのもありますが、この場合の反復は別の意味です。ご注意ください。

さて、次回は無作為化の原則について書く予定です。

ANOVAとGLM

※コラム「統計備忘録」の記事一覧はこちら


ANOVAは分散分析 analysis of variance の略称です。分散分析は統計学の中で最も使用頻度が高い手法だと思います。斯く言う私も生まれて初めて使った統計手法が二元配置分散分析でした。心理学の実験データを解析するためです。当時は Excel のような表計算ソフトも無かったので( 1980年代前半のことです)、電卓を使って計算した覚えがあります。今なら、Excel の分析ツールの中に 3 つの分散分析が入っているので、データさえ入力すれば簡単に結果を求められます。

 

フィッシャーが実験計画の組み方と実験結果の分析の仕方を「実験計画法」としてまとめ上げ、発表したのは、今から 80 年ほど前です。分散分析はこの「実験計画法」の中の分析方法の部分にあたります。分散分析をきちんと理解するには、分散分析と対になっている実験計画の組み方も同時に学ばなければいけません。

Excelに入っている分散分析は最もベーシックな 3 種類だけですが、フィッシャー以降も研究が続いて、今では実に様々な分散分析があります。分散分析とよく似た名前で、共分散分析 ANCOVA や、多変量分散分析 MANOVA というのもありますが、これらも、広義では分散分析の中に入ります。分散分析には色々な使い分けや、分散分析の結果をより仔細に検討する下位検定 post-hoc test もあり、すべてを網羅しようとすると本 1 冊に収まりきらない量です。

この複雑化してしまった分散分析を解くには、現在では GLM という分析方法を使うのが主流になっています。GLM とは General Linear Model の略称で、日本語に直すと一般線形モデルといいます。GLM は簡単に言ってしまうと、説明変数が量的変数と質的変数(カテゴリカルデータ)のどちらにも対応した重回帰分析です。SPSS などの統計ソフトで分散分析のメニューを探しても一元配置分散分析しか見つからないということがありますが、その場合は GLM を探してみてください。