BellCurve 統計WEB

ブログ

幾つデータが必要か? - 相関係数の有...

2017/08/19

カテゴリ:

相関係数の統計的有意性の検定は「無相関の検定」と呼ばれています。相関係数がゼロである(=無相関)ことを帰無仮説としていることからこの名前が付いています。この検定についても、必要なサンプルサイズ(n)をざっくり計算できます。式は次の通りです。 r は相関係数です。|r| は相関係数の絶対値を表します。 母相関係数が 0.4以上...

幾つデータが必要か? - 比率の差の検定

2017/08/19

カテゴリ:

「幾つデータが必要か?」の記事で、2群の平均値の差の検定についてサンプルサイズ(n)を幾つにするか計算式を紹介しましたが、今回は比率の差の検定のときに n を幾つ以上にしたらよいかを求めてみましょう。 計算式は次の通りです。この式も、有意水準を5%としたときに、対立仮説が正しい(2群の比率は等しくない)ときは80%の検出力で有意判定を行えるよ...

幾つデータが必要か? - 平均値の差の...

2017/08/19

カテゴリ:

t検定で有意差検定を行う場合、2群間で僅かでも差があるなら、データの個数をどんどん増やしさえすれば、理論的にはいつか有意になります。しかしながら、予算にも時間にも限りがありますし、動物実験でそんなことをしたら倫理的にも許されないですね。それでは幾つデータを採ればよいのでしょうか。 統計Tipsでは区間推定の場合に必要なサンプルサイズを計算す...

平均値と中央値の違い

2017/08/19

カテゴリ:

最小値が2、最大値が12の33個のデータがあったとします。33個のデータを小さい方から順に1番から33番まで番号を振っておきます。一本の定規の上に、各データを、データが持っている値と定規の目盛りが一致するように積み上げたところをイメージしてください。 この定規(上図の黒い棒)の左右のバランスが取れるところ、この例では7が平均値です...

平均値と統計法

2017/08/19

カテゴリ:

マーケティング・リサーチの結果を報告していると、必ずといってよいほどクライアントから平均値が幾つか聞かれます。データの分布を1つの値だけで説明しようとするなら、平均値より中央値の方がはるかにましだと思うのですが、中央値を知りたがる人はまずいません。中央値を知らない人も結構います。中央値とは、そこから集団を二等分できる値です。中央値は中学...

まだまだ外れ値が気になる

2017/08/19

カテゴリ:

前回までに単変量での外れ値の見つけ方を幾つか紹介しましたが、多変量における外れ値を確認する方法もあります。一番単純な方法としては、主成分分析を行って主成分得点を求め、主成分得点を散布図にプロットするなどして視覚化し、探索的に判断するといったテクニックがあります。数値化による判断としては、主成分得点や重回帰分析を利用して「てこ比」を求め...

外れ値の見つけ方

2017/08/19

カテゴリ:

外れ値を見つける方法としてスミルノフ・グラブス検定があると前回書きましたが、スミルノフ・グラブス検定は正規分布にしか適さない方法です。もう少し汎用性がある方法として、IQRを利用した方法があります。 IQRは第三四分位数(=75パーセンタイル)から第一四分位数(=25パーセンタイル)を引いた値です。日本語では四分位範囲と訳されています。箱ひげ図の...

外れ値と異常値

2017/08/19

カテゴリ:

外れ値と異常値、どちらも英語の outlier の訳語として用いられています。外れ値とは、実験や調査で観測された値の中で、真の値の推定値*1からの残差*2が異常に大きい観測値のことです。同じ本の中で、外れ値と異常値を使い分けていることがありますが、この場合、外れ値の中でも外れ値となった理由があるものを異常値としています。例えば、子供の平熱を調べてい...

外れ値と相関係数

2017/08/19

カテゴリ:

外れ値の影響を受けやすいものの1つに相関係数があります。このことを確認するために簡単な実験をやってみましょう。 実験を行うにあたっては、Excelの分析ツールを使って乱数を発生させ、20個のデータを持つ 2つの変数、XとYを用意します。 Correl関数を使って 2変数間の相関係数を求めると、-0.02 とかなりゼロに近い値になりました。続いて...

情報バイアス information bias

2017/08/19

カテゴリ:

選択バイアスは研究対象の選び方に起因するものでしたが、正しく対象を選ぶことができても、測定の仕方に問題があり正しい情報が得られないことがあります。 想起バイアス recall bias 過去に起こったことを質問すると、人によって、思い出した内容の正確さや完全さが異なることにより起きます。 例えば、難病の子供を抱えた母親は、そうでない母親より...