平均値と統計法
2017/08/19
カテゴリ:コラム「統計備忘録」
タグ:統計備忘録
※コラム「統計備忘録」の記事一覧はこちら※ マーケティング・リサーチの結果を報告していると、必ずといってよいほどクライアントから平均値が幾つか聞かれます。データの分布を1つの値だけで説明しようとするなら、平均値より中央値の方がはるかにましだと思うのですが、中央値を知りたがる人はまずいません。中央値を知らない人も結構います。中央値...
まだまだ外れ値が気になる
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※ 前回までに単変量での外れ値の見つけ方を幾つか紹介しましたが、多変量における外れ値を確認する方法もあります。一番単純な方法としては、主成分分析を行って主成分得点を求め、主成分得点を散布図にプロットするなどして視覚化し、探索的に判断するといったテクニックがあります。数値化による判断として...
外れ値の見つけ方
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※ 外れ値を見つける方法としてスミルノフ・グラブス検定があると前回書きましたが、スミルノフ・グラブス検定は正規分布にしか適さない方法です。もう少し汎用性がある方法として、IQRを利用した方法があります。 IQRは第三四分位数(=75パーセンタイル)から第一四分位数(=25パーセンタイル)を引いた値で...
外れ値と異常値
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※ 外れ値と異常値、どちらも英語の outlier の訳語として用いられています。外れ値とは、実験や調査で観測された値の中で、真の値の推定値*1からの残差*2が異常に大きい観測値のことです。同じ本の中で、外れ値と異常値を使い分けていることがありますが、この場合、外れ値の中でも外れ値となった理由があるも...
外れ値と相関係数
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※ 外れ値の影響を受けやすいものの1つに相関係数があります。このことを確認するために簡単な実験をやってみましょう。 実験を行うにあたっては、Excelの分析ツールを使って乱数を発生させ、20個のデータを持つ 2つの変数、XとYを用意します。 Correl関数を使って 2変数間の相関係数を求める...
情報バイアス information bias
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※ 選択バイアスは研究対象の選び方に起因するものでしたが、正しく対象を選ぶことができても、測定の仕方に問題があり正しい情報が得られないことがあります。 想起バイアス recall bias 過去に起こったことを質問すると、人によって、思い出した内容の正確さや完全さが異なることにより起きます。 例...
選択バイアス selection bias
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※ 選択バイアスは、 実験や調査の対象となった集団が、母集団を正しく代表できていないときに起こる偏りです。次のようなバイアスが選択バイアスに分類されます。 自己選択バイアス self-selection bias 臨床試験などで参加者を募集すると、健康に自身のある人が集まってきたり、疾患に関心の高い...
バイアスとの付き合い方
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※ 「 誤差の問題」の記事で、誤差には系統誤差と確率誤差の2種類があると書きましたが、バイアスはこのうちの系統誤差に含まれます。 バイアスとは、データ収集の方法によってデータが真の分布から一定の方向へずれてしまう(系統的なずれがある)ことを指します。人間を対象にした実験や調査では頻繁に...
錯誤相関
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※ 先日、バイアスについて調べ物をしていたところ、Wikipedia上で「錯誤相関」なる用語と遭遇しました。忘れないうちに備忘録にメモしておきます。 錯誤相関(英語ではillusory correlation)とは、相関があると思い込んでしまうこと、錯覚による相関です。例えば、あなたが、初めての旅行先で道に迷って...
よくある間違い
2017/08/19
カテゴリ:コラム「統計備忘録」
タグ:統計備忘録
※コラム「統計備忘録」の記事一覧はこちら※ 今回は、統計初心者のよくある間違いや勘違いを取り上げます。 1.p値が小さいほど差が大きい 平均値の差を検定する場合、p 値を左右するものには、「平均値の差の大きさ」以外に、「標準偏差」と「サンプルサイズ(n)」があります。同じ平均値の差なら標準偏差が小さい方が p 値も小さくなります。また...