BellCurve 統計WEB

ブログ

重み付きカッパ係数 ―順序尺度の場合の...

2017/08/15

カテゴリ:

カッパ係数は名義尺度か順序尺度かで計算方法が異なります。前回説明したのは名義尺度のカッパ係数(simple kappa coefficient)です。順序尺度に用いるカッパ係数のことを重み付きカッパ係数(weighted kappa coefficient)と呼びます。 例えば、2人の医師AとBが同じ 100人の患者さんについて、疾患の重症度を 1点から 5点で評価するような場合を考えてみま...

2人の鑑定結果 ―カッパ係数による一致度...

2017/08/15

カテゴリ:

2人の鑑定家 A と B が、ゴッホの作品と思われている 100枚の絵画を鑑定しました。Aは 40枚が真作で 60枚が贋作、Bは真作も贋作も半々の 50枚ずつであるとの鑑定を下しました。2人の鑑定が一致したのは真作が 30枚と贋作が 40枚で合わせて 70枚です。 このような場合、2人の鑑定が、どの程度一致していると考えればよいのでしょうか。一致の度合...

二項検定

2017/08/15

カテゴリ:

日本人の左利きの割合は 10%程度と言われています。ある小学校のクラスを調べたところ 30人中 6人が左利きでした。このクラスの左利きの子供の出現率が、10%より有意に大きいといえるか検定してみましょう。Excelなら次のように式を入力するだけです。 =1-BINOMDIST(5,30,0.1,TRUE) 式中の BINOMDIST(5,30,0.1,TRUE) は、左利きの割合が 0.1(10%)の...

病気である確率

2017/08/15

カテゴリ:

今年になって人間ドックを受けたところリウマチ因子の検査で陽性反応が出た。リウマチ因子についての説明には「陽性の人の約 40% が関節リウマチである」と書いてある。人間ドックの医師も、掛かりつけの医師も「今のところ心配しなくていいですよ」と言っているが、本当に心配ないのだろうか。気になって仕方が無いので、関節リウマチである確率をベイズの定理を...

多重共線性をチェックする

2017/08/15

カテゴリ:

エクセル統計には重回帰分析の出力にトレランスとVIFが含まれています。この2つの数値は多重共線性をチェックするために用います。 多重共線性には正確多重共線性と準多重共線性があります。正確多重共線性とは、相関行列の逆行列が求められないことを言います。逆行列を計算できない原因は、変数の個数がデータの数より多いか、変数間に1次結合があるかのどち...

Zipf の法則

2017/08/15

カテゴリ:

Zipf はジップ、または、ジフと読みます。アメリカの言語学者のジョージ・キングズリー・ジフが発見した経験則です。サイズの大きさで順位(k)を付けた場合、k番目のサイズは、1番目のサイズの 1/k になるというものです。ウィキペディアにもう少し詳しい説明があります。 さて、私自身は、那須川哲哉氏の「テキストマイニングを使う技術/作る技術」を読むまで...

局所管理の原則 ―フィッシャーの3原則(3)

2017/08/15

カテゴリ:

今回は、フィッシャーの3原則の最後、局所管理について書きます。 局所管理 local control 1919年、フィッシャーは、ピアソンからゴールトン生物測定研究室の主任統計学者としての採用の申し出を受けましたが、ピアソンに反発していたフィッシャーは申し出を断り、ロンドン郊外にあるロザムステッド農事試験場の研究員になりました。1933年にピアソンの...

無作為化の原則 ―フィッシャーの3原則(2)

2017/08/15

カテゴリ:

前回の続きです。第2の原則、無作為化について書きます。   無作為化 randomization 反復が多くなれば検出力は高まりますが、実験回数が増えて、実験期間が長引くか、期間を縮めるために複数の実験室や複数の人で実験をするということになります。そうすると、実験したときの気温や湿度の違い、実験者の癖など、実験結果を歪めるかもしれない予測不能な系統...

反復の原則 ―フィッシャーの3原則(1)

2017/08/15

カテゴリ:

実験計画法や分散分析の本を読むと、必ずといってよいほど「フィッシャーの3原則」について書かれています。実験の精度を高めるために、どのように実験計画を組むべきかを説いたものです。実験系以外の人も覚えておいて損はないので簡単に触れておきます。 第1の原則 : 反復 replication 第2の原則 : 無作為化 randomization 第3の原則 : 局所管理 l...

ANOVA と GLM

2017/08/14

カテゴリ:

ANOVAは分散分析 analysis of variance の略称です。分散分析は統計学の中で最も使用頻度が高い手法だと思います。斯く言う私も生まれて初めて使った統計手法が二元配置分散分析でした。心理学の実験データを解析するためです。当時は Excel のような表計算ソフトも無かったので( 1980年代前半のことです)、電卓を使って計算した覚えがあります。今なら、Excel ...