出版バイアス

※コラム「統計備忘録」の記事一覧はこちら


統計学のジャンルの1つにメタ・アナリシスというものがあります。医学研究でよく使われます。エクセル統計にも Mantel-Henszel の方法など、メタ・アナリシスに使われる手法が幾つか搭載されています。メタ・アナリシスとは、過去に行われた複数の独立した研究結果を、統合して統計解析することを指します。

例えば、ある病気について新しい治療法を考えたとしても、最終的には臨床試験を行って効果を確認しなければいけません。しかし、コストや期間、倫理面の問題などがあり、1回の臨床試験で臨床例を数多く集めるのは困難です。N が小さいと検出力が落ちて有意になりにくく、折角、よい治療法を開発しても効果を証明できずお蔵入りになってしまうかもしれません。そこで、過去の同じテーマについて研究した論文を探し出し、複数の臨床試験のデータを統合して N を大きくしてやります。このとき問題になるのが出版バイアス( publication bias, 公表バイアスとも訳す)と呼ばれるものです。

出版バイアスとは、ネガティブな研究結果はポジティブな結果よりも公表される可能性が低く、そのため、公表論文を集めるとポジティブな結果になりやすいことを言います。ネガティブな研究結果が投稿されることは渋るでしょうし、論文を掲載する側も有効な治療法についての論文を好むという人間の心理によるバイアス(偏り)です。

オックスフォード大学では、1984年から1987年に解析が終了した 285 の臨床試験の発表状況を調査しました。1990年までに 48% にあたる 138 の試験結果が発表されましたが、有意な結果が得られた 154 の研究のうち 60% が発表されていたのに対し、有意な結果の出なかった 131 の研究については34%しか発表されていなかったそうです。有意な治療効果の発表されるオッズは、有意でない治療効果が発表されるオッズよりも 2.9倍高かったことになります。

これまでいただいた「ご意見ご要望」

※コラム「統計備忘録」の記事一覧はこちら


これまでいただいた「ご意見ご要望」について、この場を借りて、まとめてお返事させていただきます。


それでは、ユーザーサポートでもよくお問い合わせのある、この質問から




<エクセル統計のマニュアル本はありませんか>

残念ながら、弊社から出版しているマニュアル本はありません。
まずは、エクセル統計に搭載している分析例ファイルをご覧ください。エクセル統計では、すべての手法について、サンプルデータとダイアログボックスの設定見本を収録しています。サンプルデータのワークシートを開いたら、エクセル統計メニューより手法を選択して、見本通りにダイアログを設定してください。最後に「OK」ボタンをクリックすれば、簡単に結果が得られます。


<確率変数の例を教えてください>

当コラムの「確率変数とは」の記事が役に立ちましたでしょうか。


<私は今○○論文のためデータ解析をしているのですが・・・AのデータとBのデータの相関を調べたいのですが、エクセル統計での入力のやり方を教えてください>

エクセル統計をお使いでしたら、ユーザーサポート利用規定に記載しておりますサポート専用アドレスまで、直接、お問い合わせください。

なお、データの入力の仕方はエクセル統計に搭載している分析例ファイルが参考になると思います。


<多重ロジスティック分析のやり方がよくわかりません。実際の事例を参考にさせて頂きたいです。よろしくお願い致します>

弊社はマーケティング・リサーチの会社なので、手持ちのデータを皆さんにお見せすることができません。実例ではありませんが、当コラムの「ロジステッィク回帰分析」から始まるロジスティック回帰分析に関する記事がご参考になればと思います。


<ダウンロードは無償ですか?>

統計WEBで公開しているファイルをダウンロードするのに費用は掛かりません。


<検出力(検定力)の求め方について山田剛史・村井潤一郎(著):よくわかる心理統計:2006:ミネルヴァ書房の227頁に検定力を計算する専用プログラム(無料ソフト):http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/が紹介されていますが、Windows XPでは計算できません。どうしたらよいのか教えてください。
「検定力」を求めるためのWindows版「GPOWER3」の「日本語版解説書(分析手順)」或いはその「PowerPoint解説書」を探しています。当方のメールアドレスは「・・・」です>

断り書きにありますように、統計WEBでは、お問い合わせいただいても個別にお返事を差し上げることはありません。メールアドレスなど個人情報を送信されないようお願いします。

なお、GPOWER3についてgoogleで検索しても日本語版の解説書は見つかりませんでした。英文マニュアルの方もstill incompleteとなっているので、まだ、誰も訳していないのかもしれませんね。英文のマニュアルのページをgoogleなどで自動翻訳されてはいかがでしょうか。


<ご教授下さい。当該統計WEBでは標本標準偏差sample standard deviation母集団の標準偏差の不偏推定量。不偏分散の正の平方根で、以下の式で定義される。EXCEL:STDEVとあります。一方、EXCELの関数説明では、STDEVは標本に基づいて予測した標準偏差。STDEVPは母集団に基づく、ある母集団の標準偏差とありますが・・・実験 n = 12 で得られたバラツキを評価するのには、どのEXCEL関数を使用すればよいのでしょうか。これまでは私は、一定数の標本に基づくものなので、EXCEL関数の説明に従ってSTDEVでSDとして報告書等にも記述してきました。ご教授の程、宜しくお願いしたします。e-mail: ○○○>

当コラムの「STDEVとSTDEVP」の記事が役に立ちましたでしょうか。STDEVで間違いありません。統計WEBの「推定量」と、Excelの「予測した・・・」は同じ意味と捉えてください。


<エクセル統計を使っています。Partial Least Squares Regression(PLSR)の計算ができないでしょうか>

残念ながらエクセル統計でPLSRはできません。
なお、エクセル統計をお使いでしたら、ユーザーサポート利用規定に記載しておりますサポート専用アドレスまで、直接、お問い合わせください。


<統計用語の尤度ですが2枚のコインが両方、表が出る確率が P = 0.2 となっていますが 0.25 ではないのですか?どういった計算で出したら 0.2 になるのですか>

この文脈の中でのpは「2枚のコインが両方、表が出る確率」ではありません。「表の出る確率 p が 0.2 のコインがあったとしたら」という意図で書いています。もう一度、読み直してみてください。


<事例が少ないです。初心者なので、操作説明ももっと加えて欲しいです>
<すべての解析事例を,はやくweb上にアップしてほしいです>

今、分かりやすい事例を探しているところです。仕事の合間を縫って書いておりますので一度にアップするのは無理ですが、少しずつ増やしていくつもりです。

まだまだ拙い内容ですが、これからも続けていきますので、お付き合いのほど、よろしくお願いいたします。

統計記号の使い方

※コラム「統計備忘録」の記事一覧はこちら


created by Rinker
¥4,660 (2025/10/29 10:35:29時点 Amazon調べ-詳細)

本や論文を読んでいると統計記号や略語が色々と出てきますが、同じ意味なのに著者や分野によって微妙に表記や意味が違って戸惑うことがあります。アメリカ心理学会(APA)のように、学会によっては論文作成マニュアルでかなり細かく執筆要領を定めているところもありますが、ルールを明示していない学会の方が多いのではないでしょうか。表記の揺らぎは避けられないことのようです。

created by Rinker
¥5,430 (2025/10/28 16:41:47時点 Amazon調べ-詳細)

1つの例として P の使い方を見てみましょう。『国際誌にアクセプトされる医学論文』では、P は「確率( 0 から 1 の範囲)」とされていますが、『APA論文作成マニュアル(日本語版は2011年3月に第2版を出版)』では、P は「百分率、百分位(パーセント、パーセンタイル)」です。APA で確率を意味する統計記号は小文字の p です。コンピューターを使って文字を入力していると、小文字を入力したつもりでも勝手に大文字に変換されてしまうので、この使い分けには苛々させられます。

 

なお、両者に共通している統計記号としては、次のものなどがあげられます。

 N  集団全体の標本の大きさ
 n  部分集団の標本の大きさ

 R  重相関係数
 r  ピアソンの積率相関係数、いわゆる(単)相関係数のこと

 F  フィッシャーの F
 t  t 分布の検定統計量

 

ただし、APA の執筆要領では、これらの統計記号はイタリック体として活字に組み込むとしています。しかしながら、HTML ではイタリック体は文字がきれいに表示されないので、ここでは標準書体にしてあります。HTML に限らずソフトウェアの出力としても、標準書体とイタリック体を使い分けるのはやっかいなことです。

 

ところで、F 分布の F が大文字なのに、t 分布の t が小文字なのは、統計初心者にとって使い分けの理由が分からないところです。実のところ、大文字小文字の使い分けは発明者に委ねられていて、そこに明確なルールはありません。 F は F 分布を考えたフィッシャーの頭文字をとったものです。t 分布はゴセットの発明ですが、ゴセットが実名を出したくなかったので、後に、フィッシャーが分布を定式化したときに使った t の文字から、t 分布と呼ばれるようになりました。

 

表記の揺らぎは避けられないことなので、『APA論文作成マニュアル』では、本文中で統計用語を使うときは、記号でなく用語そのものを使うようにと注意してあります。同じ理由から、本や論文を読むときは数式や数表だけを見るのではなく、本文中で記号の意味を必ず確認しておくべきでしょう。

これから心理学の卒論を書かれる方へ

created by Rinker
¥540 (2025/10/28 16:41:48時点 Amazon調べ-詳細)

正規分布、カイ二乗分布、t分布、F分布

※コラム「統計備忘録」の記事一覧はこちら


この4つの分布は統計学において頻繁に利用されますが、4つの分布の間には以下のような関連があります。

まず、自由度 n のカイ二乗(c2)分布は、n 個の独立な(変数間に相関がない)標準正規分布に従う変数 z を二乗して加え合わせたものです。式にすると次の通りになります。

カイ二乗分布は二乗値を合わせたものですから、マイナスになることはありません。自由度nが大きくなれば、平均が n 、分散が 2n の正規分布に近づいていくことが保証されています。

t 分布や F 分布は、カイ二乗分布をその自由度で割った分布、修正カイ二乗分布をベースにして定義されます。自由度 r の修正カイ二乗分布に従う変数 C2 は、次の式の通りです。

この式により、自由度1の修正カイ二乗分布は、自由度1のカイ二乗分布に等しいことが分かります。また、C2 の二乗根 C は修正カイ変数と呼ばれます。

自由度 r のスチューデントの t 分布に従う変数 t r は、標準正規分布に従う変数zを修正カイ変数 C r で割ったものです。

自由度が m と n の F 分布に従う変数 F m,nは、自由度が m と n の2つの修正カイ二乗変数 Cm2 、 Cn2 の比です。

ここで、片方の自由度 m が 1 の F 分布を考えてみましょう。自由度 1 の修正カイ二乗分布は自由度 1 のカイ二乗分布に等しくなりますから、F1,n は次のようになります。

さらに、自由度 n の t 分布の二乗に従う t n2 を考えてみます。

自由度 1 のカイ二乗分布は標準正規分布の二乗ですから、F1,n と t n2 は同じ分布になることがわかります。つまり、t 値を二乗してやれば F 値になるということです。対応のない2群の平均値の差の両側検定(いわゆる t 検定のことです)の p 値と、2水準の一元配置分散分析の p 値が一致するのはこのような理由によります。


追記

t検定やカイ二乗検定を調べていてこのページに辿り着かれた方は、次のコラムを参照ください。

t検定について
ブログ 「平均値の差の検定 ―t検定、分散分析、重回帰分析」

カイ二乗検定について
ブログ 「独立性の検定 ―最もポピュラーなカイ二乗検定」

ノンパラメトリック検定

※コラム「統計備忘録」の記事一覧はこちら


新曜社の統計用語辞典によると、ノンパラメトリック検定とは「統計的仮説検定の中でも、母集団分布に特定の分布を仮定することなく検定を行うものや、母集団分布を仮定するとしても、そのパラメタ(母数)に関してではない仮説を検定するものなどの総称である」とあります。

「母集団分布に特定の分布を仮定する」とは、ほとんどの場合、「母集団分布が正規分布である」という仮定になります。「パラメタ」とは母集団のデータの分布を特定している定数で、正規分布の場合、平均 μ と標準偏差 σ のことです。

最近では、ノンパラメトリック検定ではない検定のことをパラメトリック検定とも呼びますが、パラメトリック検定の代表格である t検定は、平均、標準偏差、個体数 n の3つの値だけで計算することができます。一方、t検定に対応するノンパラメトリック検定、Mann-Whitney の U検定は、データを値の大きさで並べて順位を付け、順位情報だけを使って計算を進めます( Wilcoxson の順位和検定というのもありますが、両者の違いは検定統計量として U を使うか、順位和を使うかという違いだけで、本質的にはまったく同じ検定です)。

t検定と Mann-Whitney の U検定の違いは検出力に現れます。検出力とは有意差の出やすさと読み替えてもよいでしょう。母集団分布が正規分布のとき t検定の検出力を 1 とすると、U検定の検出力は 0.95 とやや劣ります。しかしながら、母集団分布が正規分布でないときは、両者の検出力は同等か U検定の方が高くなります。正規分布が疑われる場合や、正規分布しているかどうか分からない場合は、U検定の方が、有意差が検出されやすくなります。正規分布かどうかを気にしなくともよいので、ノンパラメトリック検定のことを「分布によらない検定( distribution-free test )」とも呼びます。

さて、2つ目の違いは計算のしやすさです。ゴセットによって t 検定が考案されたのは今から100年前のことです。やや遅れてフィッシャーがノンパラメトリック検定の原点である「ならべかえ検定」を考案しています。t検定は100年間使われ続けましたが、U 検定が普及したのは、この20年ぐらいのことです。平均や標準偏差を計算するのに必要なデータの読み取り回数は1回ですが、順位づけするためには、データを何度も読み取らなければいけません。そのため、パソコンが計算を代わりにしてくれるまでは、t検定の独壇場だったといってよいでしょう。

ノンパラメトリックスに興味を持たれた方へ


created by Rinker
¥2,640 (2025/10/29 12:29:52時点 Amazon調べ-詳細)

粕谷英一氏が「生物学を学ぶ人のための統計のはなし」という本を書いておられます。この本は、t検定ではなく U検定から始まるというユニークな本です。私が今までに読んだ中で統計的方法の原理が一番分かりやすく書かれた本です。生物学以外の方へもお薦めします。



エクセル統計に搭載されているノンパラメトリック検定(1)

エクセル統計に搭載されているノンパラメトリック検定(2)

ぼくはうなぎだ―テキストマイニング

※コラム「統計備忘録」の記事一覧はこちら


テキストマイニングの本を読んでいたら、「うなぎ文」なるものと出会いました。うなぎ文の代表例がタイトルの「ぼくはうなぎだ」です。

うなぎ文は、「何を注文する?」、「君の好物は?」と、何を受けての発言かが分かれば解釈できるのですが、単独ではまったく意味が通じません。翻訳ソフトを使って英訳したら「I am an eel」と誤訳されることになります。

そこで、トレンドサーチがうなぎ文をどう処理するのか試してみると、次のように「うなぎ」だけが出てきました。「私はうなぎです」を試してみても結果は同じです。

多くのテキストマイニング・ツールは最初に形態素解析という作業を行います。形態素解析は、文法と辞書を利用して、文章を意味のある最小単位に分割して品詞を判別することです。トレンドサーチも次のように解析しているはずです。

「ぼく は うなぎ だ」
「私 は うなぎ です」

そこで、トレンドサーチが基本設定では代名詞や助詞、助動詞を表示しなかったのを思い出し、すべての品詞を表示するようにしたら、つぎのようになりました。

トレンドサーチの形態素解析では、「ぼく」、「僕」、「ボク」は、すべて代名詞の「ボク」として解析します。また、「です」は「だ」の丁寧表現ですが、こういった動詞や助動詞の活用による表現の揺らぎにも対応しています。

さて、うなぎ文は、人間が読んでも文脈が分からなければ理解できません。当然、コンピューターにも理解不能です。したがって、テキストマイニング・ツールを使う場合は、「注文」とか「好物」というような文脈が分かるキーワードをテキストに追加して分析するか、「好物」について書かれた文章というように、テーマにより分析対象を絞り込んでおく必要があります。

Excelで重回帰分析(4)―重相関係数と決定係数

※コラム「統計備忘録」の記事一覧はこちら


単回帰分析と重回帰分析を別々のものと思い込んでいる人もいますが、Excelの分析ツールでは両者を「回帰分析」と一纏めにしているように、説明変数1個だけの重回帰分析が単回帰分析ということになります。しかし、単回帰分析で求めた重相関係数と(単)相関係数は必ずしも一致しません。

重相関係数は、実際に観測された目的変数の値と、重回帰式をあてはめて計算した推定値(理論値)との相関係数です。重相関係数の二乗を決定係数、もしくは、寄与率と言います。Excelの分析ツールでは「重決定 R2」と出力されますが、「重決定係数」はExcelだけの用語表現じゃないでしょうか。一般的ではないので論文に使わないようにしましょう。

決定係数は、重回帰分析を行うとセットで出力される分散分析表からも、簡単に計算できます。分散分析表の一番下の行に「合計の変動」の欄がありますが、この値が示すものは、目的変数の平均値と観測された値との差の二乗の和(偏差平方和)です。目的変数のデータ全体のばらつきの大きさを示していて、総変動(St)という言い方もします。

 \displaystyle S_{t}=\sum_{i=1}^n (y_{i}-\overline{y})^2

合計の一つ上の行の変動を誤差変動(Se)と言います。誤差変動は観測値と重回帰式による推定値の差(残差)の二乗の和です。回帰式で説明できなかった目的変数の変動(ばらつき)の大きさを示しています。

 \displaystyle S_{e}=\sum_{i=1}^n (y_{i}-\hat{y}_{i})^2

この総変動(St)と誤差変動(Se)を次の式にあてはめると決定係数(R2)が求められます。

 \displaystyle R^2=1-\frac{S_e}{S_t}

決定係数の意味するところは、目的変数の総変動のうち、重回帰式で説明できる変動の割合です。

決定係数(R2)は重相関係数(R)の二乗なので、逆に、決定係数を計算しておいて、そのルート(二乗根)を求めると重相関係数ということになります。

 \displaystyle R=\sqrt{R^2}

単相関係数と違って、重相関係数は二乗根で求めた値なので、マイナスになることはありません。そのため、説明変数が1個の回帰分析の場合、回帰係数の符号がマイナスの時は重相関係数に-1を掛けて単相関係数を求めます。

チョコレートと相関

※コラム「統計備忘録」の記事一覧はこちら


バレンタインデーの季節なので、チョコレートでトピックを書いてみようとGoogleで「チョコレート 相関」を検索してみました。ヒット件数は103,000件。占いから、イギリスの製菓会社の調査結果、鼻血との関係など話題は様々でしたが、この数字が多いのか少ないのか判断しかねますので、他にも幾つかチョコレート絡みで調べてみました。

まずやってみたのは英語による検索です。「chocolate correlation」を検索してみると245,000件のヒット。日本語の2倍以上です。しかし、英語圏の人口は15億人と謂われていますから、予想していたよりも少ない件数です。ちなみに、日本チョコレート・ココア協会というホームページを見つけたので、ここに掲載されていた2004年の世界主要国のチョコレート消費量の数字を見たところ、イギリスの1人あたりの年間消費量は9.4kg(19ヵ国中5位)、アメリカが5.3kg(10位)でした。日本の消費量は2.2kg(18位)しかありませんので、もっと英語でヒットしても良さそうですが。

続いて、他のお菓子と比べてみようと「クッキー 相関」を検索してみたら、143,000件のヒット。でも検索結果をよく見てみると、インターネットのクッキーなど、お菓子以外のクッキーの方が多そうです。そこで、協会のホームページをもう一度見ていたら、日本の菓子の小売金額の統計もありました。平成18年の数字を見ると、チョコレートは「和生菓子 4,944億円」、「洋生菓子 4,670億円」についで第3位(4,138億円)となっています。早速、「ケーキ 相関」も調べてみたところ151,000件のヒットです。ネット上では金額の差以上にケーキの話題の方が多いようです。これは、ケーキが年中話題になるのに対して、チョコレートはバレンタインデーの時期に集中することの表れでしょうか。

協会のホームページには1981年から2005年までのバレンタインデーシーズン(いつからいつまでか書いてないのですが)の販売推定額の数字(※現在このページは削除されています)もありました。チョコレート全体の国内消費額の前年比は、幾何平均を計算すると年1%程度の伸びなのに対して、バレンタインデーシーズンの販売推定額は平均して2.7%も伸びています。そのため、シーズンの販売額は、1981年には全体の8%だったのが2005年には12%になっています。最近は1月になるとデパートから予約販売のDMが届き、有名なショコラティエのチョコはあっという間に完売してしまうようですから、傾向はもっと顕著になっているかもしれませんね。

回帰係数と相関係数

※コラム「統計備忘録」の記事一覧はこちら


XからYへの回帰の回帰係数と、XとYの相関係数の間には次のような関係があります。

 回帰係数=相関係数×(Yの標準偏差/Xの標準偏差)

前回と同じようにベクトルを使って回帰係数と相関係数の関係を描いてみましょう。今回は次の身長(X)と体重(Y)のデータを使います。

最初は前回の方法で、相関係数(r)が0.80の2本のベクトルを描きます。2つのベクトルの内角は約37度になります。続いて、1本のベクトル(青色)を身長の標準偏差に合わせて10.06cmに伸ばします。もう1本のベクトル(赤色)を体重の標準偏差に合わせて7.12cmに縮めます。2つのベクトルの長さの比は身長を1とすると体重は0.71倍、体重を1とすると身長は1.41倍です。

続いて、体重のベクトルの先端から身長と垂直に交わる1本の線をおろします。

この身長と交点までの長さを測ると5.72cmになります。これは、身長の標準偏差10.06cmにXからYへの回帰係数0.57を掛けた長さになります。逆に、身長のベクトルの先端から、体重のベクトルと垂直に交わる線を引くと、ベクトルの交点までの長さは体重の標準偏差7.12cmにYからXへの回帰係数1.14を掛けた長さになります。

相関係数を視覚化する

※コラム「統計備忘録」の記事一覧はこちら


相関係数を視覚的に理解しておくと、統計学を勉強するときにとても役に立ちます。コンパスと三角定規があれば簡単にできますから、みなさんも試してみてください。

それでは、相関係数(r)が 0.8 の状態を絵にしてみます。まず、最初に半径 10cm の円を1つ描いて、円の中心から縁に向かって1本の矢印を引きます。

続いて、矢印の先に向かって8cmのところに、直角に交わる1本の線を引きます。

最後に、引いた線と円が交わるところに向かって、円の中心から、もう1本の矢印を引きます。

この2本の矢印の交わる角度が相関係数を表します。r=0.8 の角度は 36.8699度です。

次のExcelの関数を使っても相関係数の角度を簡単に求められます。

 =DEGREES(ACOS(0.8))

2本の矢印は相関をなす2つの変数をベクトルとして表現したものです。片方の矢印の先端から、もう片方の矢印に対して垂直に交わるように線を引き、この交わったところまでの長さを射影と言います。この図では射影は8cmですね。矢印全体は 10cm ですから、8cmはベクトル全体の 8/10 (= 0.8)ということになります。2本の矢印の長さ(ベクトルの大きさ)を一緒にして射影を求めた場合、矢印の長さに対する射影の比が相関係数と一致します。

したがって、ある角度が相関係数にすると幾つになるかは、三角関数のコサイン(cosine)で求められます。60度の相関係数を知りたければExcelに次のように入力してください。

 =COS(RADIANS(60))

相関係数が 0(ゼロ) ということは角度にすると 90度、直角に交わります。統計学を勉強していると直交という言葉が良く出てきますが、直交とは r=0 のこと、無相関ということです。