【コラム「統計備忘録」記事一覧】

アンケート・調査

クロス集計表の分析

欠損値

誤差・標準誤差

実験計画法・分散分析

重回帰分析

人口

相関と回帰

多変量解析

テキストマイニング

統計学史

統計記号

バイアス

平均・分散・標準偏差

外れ値

ヒストグラム

標準化

Excelの分析ツール

ベイズ統計

変数、変量

ロジスティック回帰分析

割合・比率

P値

エクセル統計掲載書籍

未分類

ビンの数と幅

※コラム「統計備忘録」の記事一覧はこちら


量的データの度数分布をグラフにしたものをヒストグラムまたは柱状グラフと言います。Excelのグラフの種類にヒストグラムはないため、Excelで作るなら棒グラフを代用することになります。Excelの分析ツールにもヒストグラムのメニューがありますが、やはり棒グラフを代用してヒストグラムを書いています(分析ツールのヒストグラムは、コラムの最後に書いた理由によりお奨めできません)。

ヒストグラムの棒のことを英語ではbin(ビン)と言います。日本語版分析ツールのダイアログでは[データ区間]となっているところも、英語版では[bin range]となっています。ヒストグラムでは、このビンの数と幅をどう設定するかで見た目がずいぶん変わってしまいます。

Excelの分析ツール


まず、ビンの数(k)の決め方としては、スタージェスの公式を使ったものがよく知られています。Excelで求めるなら次の関数式を入力するだけです。n のところはデータの件数にしてください。

=LOG(n,2)+1

n が256なら k=9となります。端数がでたら切り上げてください。スタージェスの公式を使うと n が倍になるごとに1ずつ増えていくので n = 512 なら k = 10 です。スタージェスの公式以外にも n の平方根を使う方法もあります。ビンの幅( h )はデータの範囲(最大値-最小値)をビンの数で割った値です。

一方、ビンの幅( h )を決め、データの範囲をhで割ってビンの数( k )を求める方法もあります。スコットの選択(標準偏差の3.5倍を n の3乗根で割る)やフリードマン=ダイアコニスの選択(四分位範囲の2倍を n の3乗根で割る)などが知られています。

ビンの数と幅の決め方について、どんな場合にも有効な方法はありません。多くの統計ソフトはビンの数や幅をしなくとも自動で設定する機能がついているので、まずは、ソフトまかせでヒストグラムを作成してみてください。Excelの分析ツールでも、[データ区間]を指定しなくともヒストグラムを作成できます。

分析ツールのヒストグラム作成ダイアログ
(ヒストグラムを出力するためには[グラフ作成]のチェックが必要)




分析ツールにより作成した度数分布表とヒストグラム(最初と最後の級の頻度に誤りがある)



ただし、Excel分析ツールのヒストグラムはデータ区間(階級の区切り)にはデータ区間の上限値が設定されており、各データ区間の頻度は「前のデータ区間の上限値より大きく、そのデータ区間の上限値以下」のデータの数となります。日本でよく使われている度数分布の階級は「その階級の下限値以上、次の階級のの下限値未満」なので、このようにしたいなら統計Tipsで紹介した方法を用いるか、エクセル統計など統計ソフトの利用すお奨めします。

エクセル統計により作成した度数分布表とヒストグラム



エクセル統計では、ビンの幅と数の設定において公式を用いた設定のオプションが搭載されており、スコットの選択、フリードマン=ダイアコニスの選択、スタージェスの公式、平方根選択の4種から選べます。

Excelの分析ツール(3)

※コラム「統計備忘録」の記事一覧はこちら


「Excelの分析ツール (2)」の続き。残る5つの分析ツールですが、まずサンプリングからですね。

分析ツールのウィンドウ




サンプリング

入力済みの大量の数値データから標本抽出(サンプリング)を行うときに利用します。サンプリングの方法は「周期」と「ランダム」の2通りあります。「周期」は一定の間隔を空けてデータを取り出したいときに使用します。「ランダム」は無作為抽出(ランダムサンプリング)に利用します。
中心極限定理を実感してみたいなら、同じ分析ツールの中にある乱数発生の機能で大量のデータを作り、続いてこのサンプリング機能でランダムサンプリングを50回ほど繰り返し行ってみましょう。50個のサンプルの標本平均の分布は中心極限定理に従った正規分布を描くはずです。

t検定:一対の標本による平均の検定

1つの個体からAとBの2つの条件下でデータを採取します。これを標本内のすべての個体より行います。A、B、いずれかのみというケースは許されず、必ず対になっている必要があります。続いてAとBの差を求め、この差の平均が統計的に有意かどうかを検定します。対応のあるデータのt検定(paired t-test)と呼ばれている検定手法です。

「仮説平均との差異」には何も入力しません(まず使うことはありません。何も入力しなければ「0」の扱いになります)。「α」には有意水準を設定します。初期値として「0.05(有意水準が5%ということ)」が設定されています。有意水準 1% で検定したいからといってわざわざ「0.01」と入力する必要はありません。この値は有意水準におけるt値の境界値を求めるだけのものです。有意差があるかどうかは、出力されたP値(片側、両側、それぞれに出力されます)を見れば事足ります。P値が自分の定めた有意水準のαより小さい場合に有意差ありと判断します。

ExcelのTTEST関数、T.TEST関数を用いる場合はTTEST関数の4番目の引数「検定の種類」を「1」に設定します。両側検定、片側検定の区別は3番目の引数「検定の指定」で行います。関数が返す値はP値のみになります。上記をTTEST関数を用い、両側検定を行うならワークシートのセルに次のように入力します。関数のデータはラベルを含めることができないので注意しましょう。

=TEST(C22:C28,D22:D28,2,1)

なお、条件が3つ以上あるなら、同じ分析ツール内の繰り返しのない二元配置分散分析を用いましょう。

エクセル統計で「t検定:一対の標本による平均の検定」を行うなら、[平均の推定・検定]メニューから[2群の母平均の差の検定(対応あり)]を選択してください。条件が3つ以上あるなら、データの書式に合わせて、[一元配置分散分析(対応あり)]か[多元配置分散分析(対応あり)]のいずれかを利用してください。

t検定:等分散を仮定した2標本による検定

いわゆるt検定のことです。対応のない2つの標本間で平均値の差を検定する場合に用います。対応のない2標本のt検定は、2標本の分散が等しいことを前提としているか、2標本の分散が等しくないとしているかで計算方法に違いがあります。後者は、Welchの方法によってt検定を行います。次に説明する「t検定:分散が等しくないと仮定した2標本による検定」がWelchの方法によるものです。なお、2標本の等分散性を検定するなら、さきほどのF検定を用います。「仮説平均との差異」、「α」については設定を気にする必要はありません。

ExcelのTTEST関数、T.TEST関数を用いる場合はTTEST関数の4番目のパラメータ「検定の種類」を「2」に設定します。

=TEST(C29:C37,D29:D35,2,2)

なお、条件が3つ以上あるなら、同じ分析ツール内の繰り返しのない二元配置分散分析を用いましょう。

t検定:分散が等しくないと仮定した2標本による検定

Welchの方法によって2標本の平均の差のt検定を行います。先ほどのt検定は2標本が等分散であることを前提としています。しかしながら、片方の標本がもう片方の標本よりも平均も分散も大きくなるということがよくあります。また、等分散であるかどうか事前に想定できないこともよくあります。このような時は、Welchの方法によるt検定が適しています。

Welchの方法ではt分布の自由度に小数点以下の値が生じます。Excelの分析ツールでは、四捨五入後の自由度によるt分布を用いてP値を計算してしまいます。一方、ExcelのTTEST関数やT.TEST関数を使ってもWelchの方法によるt検定ができるのですが(関数の4番目の引数「検定の種類」を「3」に設定します)、関数から求められるP値は自由度を四捨五入しないで計算しています。より検定の精度を高めるなら、関数を使って検定を行った方が良いでしょう。

=TEST(C29:C37,D29:D35,2,3)

なお、エクセル統計で「F検定:2標本を使った分散の検定」と「t検定:等分散を仮定した2標本による検定」、「t検定:分散が等しくないと仮定した2標本による検定」を行う場合は、[平均の推定・検定]メニューから[2群の母平均の差の検定]を選択してください。1回の操作で3つの検定結果が同時に出力されます。

z検定:2標本による平均の検定

2標本の母分散が既知の場合や、大標本のデータで標本の分散と母分散が等しいと仮定できる場合は、正規分布を用いた平均の差の検定ができます。母分散が既知というと工場の品質管理データのように以前からの蓄積があったり、過去の大規模調査の結果を利用できたりという場面が考えられますが、このような既知の母分散を利用できる場合は、「変数1の分散(既知)」、「変数2の分散(既知)」に直接分散を入力します。分散が大きいと入力が大変ですから、できれば標準偏差の入力にしてほしいところです。

平均については「変数1の入力範囲」、「変数2の入力範囲」に指定したデータから計算します。分散の入力がなければ(母分散が未知の場合)、こちらも平均を求めるのに使ったデータから計算します。

ExcelにはZTEST関数やZ.TEST関数がありますが、1標本検定で、しかも、片側検定(標本平均が比較値より大きい場合のみ)のP値しか返してくれません。

エクセル統計では「z検定:2標本による平均の検定」も、[平均の推定・検定]メニューから[2群の母平均の差の検定]を利用します。1回の操作で3つの検定結果が同時に出力されます。「公式」のオプションを「正規分布」に変更するとz検定になります。ただし、母分散が未知の場合にのみ対応しています。母分散が既知の場合には分析ツールをご利用ください。



以上がExcelの分析ツールに搭載されている18種の統計解析手法です。


私がはじめてExcelの分析ツールを使ってみたのは1995年のことですが、その後、Excelのバージョンが変わってもExcelの分析ツールのメニューには一切変化がありませんでした。さすがに20年近く経つと統計解析のトレンドも随分と変わってしまいましたので、実用性という面では価値が薄くなってきています。せめて、独立性の検定(カイ二乗検定)や基本的なノンパラメトリック検定の幾つかは組み込んで欲しいところです。

それから、Excelの統計用語は一般的でないものが多く、また、ヘルプの説明が説明になっていない点も要注意です。統計学の知識が中途半端だとExcelの分析ツールも統計関数も使いこなすのが困難です。Excelを利用して統計学を学ぶ本は毎年のように出版されていますから、統計学の初心者は1冊持っていた方が安心でしょう。

Excelの分析ツール(2)

※コラム「統計備忘録」の記事一覧はこちら


今回のコラムを書いていて不思議に思ったのは分析ツールのリストの並びです。リストは分散分析に始まって t検定、z検定で終わります。「分散分析も、t検定と z検定も、平均が同じかどうかを検定するためにあるのに、何故、リストの両端に分かれているの?」、「時系列データの平滑化に使う指数平滑と移動平均の間にF検定やヒストグラムが入るのはどうして!」といったところです。英語版を見れば一目瞭然ですが、この並びは ANOVA から z test までと分析手法の英語名によるアルファベット順なのです。Descriptive Statistics が「記述統計量」でなく「基本統計量」と訳されているので、謎解きに手間取ってしまいました。

さて、「Excelの分析ツール (1)」の続きです。

分析ツールのウィンドウ




指数平滑

指数平滑という手法を使って、時系列データの平滑化を行います。ダイアログでは「減衰率」を設定するようになっていますが、この減衰率には(1-平滑化係数)の値を設定します。

F検定:2標本を使った分散の検定

2変数のデータ範囲を指定し、「変数1の分散>変数2の分散(観測された分散比が 1 より大きい)」ならF分布の上側による片側検定を、「変数1の分散<変数2の分散(観測された分散比が 1 より小さい)」なら下側による片側検定を行います。2変数のどちらの分散が大きいかによって対立仮説が変更されてしまうので注意が必要です。なお、ここで出力される P値を 2倍すると両側検定の P値となり、FTEST関数による P値と等しくなります。

フーリエ解析

高速フーリエ変換(FFT)と逆変換を行います。フーリエ解析については、ほとんど知識がありませんのでコメントは控えさせていただきます。

ヒストグラム

量的データを読み込んでヒストグラムを作るためにあるんですが、オプションの「グラフ」をチェックしないと度数分布表しか出力しないので要注意です。度数分布表の作り方も一般的じゃありません。度数分布表の各階級は「○○以上-◇◇未満」とするのが普通ですが、Excelの分析ツールは「○○より大きい-◇◇以下」となっています。それから、出力されるグラフはただの棒グラフですヒストグラムらしくするにはグラフの書式設定で「棒の間隔」に「0」を入力します。分析ツールによりヒストグラムの作成することはお奨めしません。COUNTIF関数やグラフの編集の仕方をマスターした方が良いでしょう。

移動平均定

移動平均という手法を使って、時系列データの平滑化を行います。分析ツールの移動平均は株価チャートで使われる移動平均と同じ計算原理です。「区間(N)」に5を指定した場合、ある時点tの移動平均は、t-4、t-3、t-2、t-1、t の5時点のデータの平均になります。本来の移動平均では、ある時点tの移動平均は、t-2、t-1、t、t+1、t+2 とその前後の時点のデータを使って求めます。そのため、区間が奇数か偶数かでも計算方法が異なります。

乱数発生

ExcelにはRAND関数とRANBETWEEN関数の2種類の乱数を発生させる関数がありますが、一様分布の乱数しか作れない、シードを設定できないので再現性が無いといった弱点があります。また、ワークシートに何か入力するたびに乱数の値が変わってしまうという点もやっかいです。分析ツールでは、均一、正規、ベルヌーイ、二項、ポワソン、離散の6種類の分布から乱数を選ぶことができます(分布のリストにはパターンというのがありますが、これは乱数ではありません)。

順位と百分位数

RANK関数とPERCENTRANK関数が使えれば必要ありません。

回帰分析

重回帰分析もできます。標準偏回帰係数が出力されない、説明変数が16個までしか分析できない、変数選択ができない、欠損値があると分析できない用語が一般的ではないといった使用上の注意点が幾つかあります。

Excelの分析ツール(1)

※コラム「統計備忘録」の記事一覧はこちら


Microsoft Excelには、CORRELやTTESTといった様々な「関数」、「ピボットテーブル」、「分析ツール」や「ソルバー」などのアドインが用意されています。Excelだけでも、簡単な検定から、多大な手間は要するものの、かなり高度な多変量解析までこなせます。「相関係数を求めたい」とか「t検定をしたい」ぐらいで、わざわざ統計ソフトを買う必要はありません。Excelを利用して統計学を学ぶテキストも毎年のように出版されていますから、統計ソフトを買う前に一度読んでみてください。

ソルバーと分析ツールを組み込んだExcel2010(データのリボンの右端にボタンが表示される)


さて、前置きが長くなりましたが、今回はExcelの分析ツールを取り上げたいと思います。Excelが初期設定のままでは、メニューにもリボンにも分析ツールが表示されないので、分析ツールの存在を知らない人がほとんどではないかと思います。以前に、コラム「Excelで重回帰分析(1)」で分析ツールを使用して重回帰分析を解いてみましたが、分析ツールには重回帰分析以外にも幾つかの統計解析機能が備わっています。

分析ツールのウィンドウと搭載されている解析手法

分散分析:一元配置
分散分析:繰り返しのある二元配置
分散分析:繰り返しのない二元配置
相関
共分散
基本統計量
指数平滑
F検定:2標本を使った分散の検定
フーリエ解析
ヒストグラム
移動平均
順位と百分位数
回帰分析
サンプリング
t検定:一対の標本による平均の検定
t検定:等分散を仮定した2標本による検定
t検定:分散が等しくないと仮定した2標本による検定
z検定:2標本による平均の検定



このリストを見て「エクセル統計買わずに済んだ」と後悔している方がいるかもしれませんね。そういった方のために、また、これから統計ソフトの購入を検討されている方のために、Excelの分析ツールの限界、統計ソフトとの違いなどについて書いておきます。

分散分析(3種)

まず、最初に並んでいる分散分析ですが、Excelの分散分析には多重比較の機能がありません。それから「繰り返しのある二元配置」の場合、繰り返しの数が不揃いな場合に対応していません。「エクセル統計の分散分析について」で書いたように要因計画の配置表に合わせた書式のデータしか分析できないため使い勝手を悪くしています。

相関、共分散

次に相関と共分散ですが、これは、共に複数の変数(複数列)のデータからすべての組み合わせで相関係数や共分散を求め、相関行列や分散共分散行列にまとめることができます。ただし、欠損値があるデータでは注意が必要です。分析ツールには欠損値を含むケースを行ごと分析対象から除く機能がありません。一般の統計ソフトの多くについている機能ですが、この機能が無いため、欠損値を含む場合は事前に分析対象からケースを除いておく必要があります。また、無相関の検定(相関係数の有意性の検定)もありません。

基本統計量

基本統計量は、複数の変数(複数列)のデータより、
平均、標準誤差、中央値、最頻値、分散、尖度、歪度、範囲、最小、最大、合計、標本数、
k番目に大きな値、k番目に小さな値、信頼区間

をまとめて計算できます。Excelには標準誤差を直接求める関数が無いので、計算式が分からない人は分析ツールを使用してください。
Excelの欠点として用語の間違いが多いということが挙げられます。それはここでも見られます。標本数に出力されているのはサンプルサイズ(データ数)です。また、「k番目に大きな値」の出力の見出しは「最大値(k)」となり、何を意味するのか分からなくなっています(「k番目に小さな値」は「最小値(k)」)。信頼区間の出力は平均から信頼限界までの幅を出力しているだけで、区間の上限や下限は出てきません。CONFIDENCE関数の値を貼り付けているだけです。

出生率の計算

※コラム「統計備忘録」の記事一覧はこちら


「日本の人口」の記事で、厚生労働省の『平成 23 年(2011) 人口動態統計の年間推計』より人口減少を話題に取り上げました。日本の場合、人口減少の最大の要因は出生率の低下ですが、この出生率には何通りかの計算方法があります。この厚労省のレポートにも出生率と合計特殊出生率の2つの出生率が出てきます。

人口動態調査の出生率は「普通出生率」と言われるものです。粗出生率とも言い、英語はCBR(Crude Birth Rate)です。普通出生率は次のように計算します。


 普通出生率(‰)=1年間の出生数/当該年の人口×1000



「‰」は「パーミル」と読みます。人口動態など人口関連で率というと、単位は「パーセント」ではなく「パーミル」、人口千人あたりの数が多く使われます。2010年の普通出生率の確定値は8.5、2011年の推計値は8.4です。

もう1つの「合計特殊出生率」ですが、普段メディアで「出生率」として取り上げられるのは、こちらの出生率です。英語ではTFR(Total Fertility Rate)です。合計特殊出生率とは、調査した年における15歳から49歳までの女性の各年齢ごとの出生率を合計したものです。調査年のような出産のスタイルが生涯に亘るとしたら、15歳から49歳までに1人の女性が平均して何人子供を産むかを表します。



 合計特殊出生率(人)=15歳女子から生まれた1年間の出生数/当該年の15歳女子人口+
             16歳女子から生まれた1年間の出生数/当該年の16歳女子人口+
         ・・・+49歳女子から生まれた1年間の出生数/当該年の49歳女子人口



日本では、合計特殊出生率は2005年に過去最低の1.26を記録して、その後、徐々に増えて2010年に1.39まで戻しています。合計特殊出生率が2を超えないと少子化が進むわけですから、まだまだ少子化が続くものと思われます。厚労省のレポートによると日本より合計特殊出生率が低いのはお隣の韓国の1.23、シンガポールの1.15です。



各国の合計特殊出生率
国名合計特殊出生率
日本 1.39 (2010年)
韓国 1.23 (2010年)
シンガポール 1.15 (2010年)
アメリカ 2.01 (2009年暫定値)
フランス 2.00 (2010年暫定値)
ドイツ 1.38 (2008年)
イタリア 1.41 (2009年)
スウェーデン 1.94 (2009年)
イギリス 1.96 (2008年)


また、このレポートには出てきませんが、普通出生率、合計特殊出生率以外では「総出生率(GFR:General Fertility Rate)」という出生率もあります。これは、1年間の出生数を当該年の15歳から49歳の女子人口で割り1000を掛けて求めます。他にも、標準化出生率、有配偶出生率など幾つかあります。

日本の人口

※コラム「統計備忘録」の記事一覧はこちら


毎年、1月1日に厚生労働省から前年の人口動態統計の年間推計が発表されます。人口動態統計とは出生数、死亡数、婚姻件数、離婚件数及び死産数についての統計です。1月1日の推計値は前年1月から10月までの調査結果を利用したもので、確定値は9月に公表されます。

2011年は東日本大震災の影響で推計値と確定値は開きがあるかもしれませんが、昨年の出生数が1,057,000人に対し死亡数は1,261,000人です。204,000人の人口減ということになります。2005年と2010年の国勢調査の比較では5年間で37万人の人口減でしたから、過大推計になっていなければ、戦後最大の人口減少ということになりそうです。東日本大震災の死者・行方不明者が2万人いらしたということを考慮しても戦後最大の減少です。

厚労省のレポートでは1947年以降の人口動態総覧の年次推移の表も載っています。この表を見ると、出生数のピークは1949年(昭和24年)の2,696,638人で、この年の死亡数は945,000人、出生が175万人も上回っていました。ちなみに、この年の出生率は33.0(人口千人に対する出生数)で、2011年の8.4と比べると4倍にもなります。

なお、婚姻件数の推計値は670,000組(2010年は700,214組)、離婚件数235,000組(2010年は235,000組)です。震災後、結婚に踏み切るカップルが増えたという報道がありましたが、この数字を観る限りそのような様子は窺えません。1947年以降、婚姻率が10を超えたのは、1947年から49年の3年間と1970年から72年の3年間の合わせて6年間です。確定値ベースで最も低い婚姻率は2010年の5.5ですから、2011年が推計値どおりの5.3となれば、こちらも過去最小を更新することになりそうです。一方、離婚率は2003年の2.30がピークです。2011年の推計値は1.86でピークから緩やかに下がってきているようです。

このレポートには、このほかに国際比較の数値も載っています。厚労省のホームページからPDFをダウンロードできますから、是非、一度読んでみてください。『平成 23 年(2011) 人口動態統計の年間推計』で検索すればすぐに見つかります。

検定の多重性

※コラム「統計備忘録」の記事一覧はこちら


ここ10年ぐらいで、分散分析の結果が有意となった場合に、続けて多重比較を行い、どの水準間に有意差があるか検定をすることが当たり前のようになっています。教科書によっては多重比較が分散分析の下位検定(post-hoc test)でしかないような書き方をしているものもありますが、これは誤解です。分散分析の結果が有意であることを前提としているのは、FisherのLSD(最少有意差法)やScheffeの方法などで、すべてが下位検定という訳ではなく分散分析の結果を無視して利用できるものも多々あります。

エクセル統計も含め多くの統計ソフトはの分散分析の機能と同じ場所にオプションとして多重比較を備えていますす。これは分散分析とセットで使われることが多いことと、分散分析にかける場合も多重比較にかける場合も扱うデータのまとめ方も入力の仕方に区別が無いということもあります。エクセル統計ではノンパラメトリック版の多重比較も搭載していますが、こちらは、クラスカル=ウォリス検定の中のオプションになっています。

 

さて、多重比較とは「検定の多重性」という問題に対処するため考案されたものですが、検定の多重性の問題とはどんな問題なのか簡単にふれておきます。

例えば、A、B、Cと3つの薬剤があったとします。A-B、A-C、B-Cと2薬ずつ 3組を有意水準 5%で t検定などで比較検定したとします。元々、この「3剤に薬効の差は無かった」としても、それぞれの検定で、標本誤差によりたまたま有意になってしまう確率が 5%あります。3つのうち 1つでも有意になってしまう確率はというと 14.2625%まで上がってしまいます。

なぜ、14.2625%に上がってしまうかは次の計算によります。まず、それぞれの検定で正しい結果(有意にならない。P>0.05)が出る確率は 95%(=0.95)ですが、3つとも正しい結果が出るとなると 0.95 の 3乗で 0.857375 となります。逆に、3つの検定で 1つ以上有意になる確率はというと 1-0.857375 で 14.2625%ということになります。

このように複数回の検定を重ねることによって、本来設定していた有意水準でより誤判定してしまう確率が高まってしまうことを検定の多重性の問題と呼びます。

検定の多重性の問題は、多水準間の平均値の差の検定のような場合も含めて、次のような幾つかの場面で生じます。

 

(a).水準間比較の検定の多重性の問題

(b).多項目検定の多重性の問題

(c).多時点比較の多重性の問題

(d).多種検定適用の多重性の問題

(e).解析対象(サブグループ解析)の多重性の問題

(f).分割表による検定の区切り直し検定の問題

(g).中間解析の問題

  永田 靖,吉田 道弘『統計的多重比較法の基礎』(サイエンティスト社,1997)より


(a)は皆さんがおなじみのケースです。

(b)の多項目検定とは血液検査で複数の項目を測定しそれぞれ検定してしまうような場合に生じます。アンケート調査でも沢山質問して検定を幾つも行えば、偶然だけで有意になるということは十分起こりえます。

(c)は時系列データで何時点も測定して順次比較検定するようなときに生じえます。

(d)は同一のデータに対しt検定とマン・ホイットニー検定を適用するなど複数の検定を適用する場合です。

(e)は疫学調査や社会調査などで性や年齢、職業などで分類してサブグループを幾つも作り検定を繰り返すような場合、(f)は分割表(クロス集計表)に対し一部のカテゴリを統合するなどして集計し直し、その都度、検定を行う際の問題です。

(g)の中間解析というのは大規模臨床試験などですべてのデータが集まっていない段階で収集済みのデータだけを使ってデータ解析することを指します。

これらの問題の対処法の1つが多重比較であって、多重比較以外にも、有意水準を厳しく設定する、類似の結果が得られるそうな測定項目を幾つかデータ収集しておいて検定結果が一致するかを検証するなど色々なアイデアがあります。

参考書籍

created by Rinker
¥4,180 (2025/10/29 12:35:32時点 Amazon調べ-詳細)

エクセル統計の分散分析について

※コラム「統計備忘録」の記事一覧はこちら


エクセル統計では一元配置や二元配置の分散分析を行うための入り口が2つずつ用意されています。どちらの入り口から入るかはデータをどう整理しているかによります。長年使っているユーザーの方でも2つあることに気づいていらっしゃらなかったリするので、コラムに書いておきます。

メニューの先頭から4つはExcelの分析ツールに入っている分散分析と同じように、要因計画の配置表に合わせてデータを整理してある場合に使用します。分散分析の解説書などによく使われているパターンです。

例えば、3水準と4水準の2つの因子があり繰り返しが3回のデータを分散分析するなら上の表のようにデータを入力しておきます。続けて、表全体をドラッグし、さきほどのメニューから「二元配置分散分析」を呼び出します。

エクセル統計とExcelの違いはといえば、エクセル統計なら繰り返しの数が不揃いな場合でも分析できる点です。多重比較もExcelの分析ツールにはありません。

さて、もう一つの入り口は「多元配置分散分析」になります。エクセル統計2006までは四元配置以上ができなかったので「一元~三元配置分散分析」という名称でした。この多元配置分散分析から同じデータを分析する場合は、上のようにデータを入力しておきます。

アンケートのようにデータ量が多いときや、被験者の属性など他の情報も一緒に記録しておきたいときは、このように整理してある方が多いと思います。SPSSなど多くの統計ソフトもこのパターンでデータを入力しておくことになります。

この例では、水準が分かり易いように水準を文字で入力してありますが、1、2、3と数字で入力しておいても構いません。

今回は二元配置分散分析を例にしましたが、一元配置などその他の例についても、例題データと操作手順が分析例ファイルに収録されています。「ヘルプ」メニューから「分析例ファイル」を選択すると分析例ファイルを開くことができます。分散分析の例題は、すべて「ex_05_ANOVA.xlsx」に入っていますから覗いてみてください。

比率が0%のときの信頼区間(3の法則)

※コラム「統計備忘録」の記事一覧はこちら


医薬品の臨床試験を行って有害事象(AE:Adverse Event。患者さんにとって医療上望ましくないこと)の発現率が 0% だったとします。これは非常に望ましいことですが、もしかしたら被験者の数が少なくて有害事象が起こらなかっただけかもしれません。

浅井隆先生の『いまさら誰にもけない医学統計の基礎のキソ1』を読んでいたら「頻度が 0% か 100% の信頼区間」の節で、このような場合の95%信頼区間の求め方が載っていました。3 を被験者の数 n で割るだけで求められることから、「3の法則(Rule of 3)」と呼ぶそうです。

例えば、300人の臨床試験で発現率が 0% だったら、95%信頼区間は「 0%-1%(3/300)」ということになります。0% と 100% は裏返しの関係ですから、発現率が 100% なら信頼区間は「99%-100%」になります。

Wikipediaに解説を見つけたので読んでみると、「3の法則」で得られる結果は近似的なものですが、n が 30 を超えると大変良い近似値になるとありました。

製薬会社が新薬を発売すると、市販後3年以内に 3,000 例以上の症例を無作為抽出によって集めることになっています。この 3,000 という数字も「3の法則」が根拠になっているようです。市販後調査の 3,000 例にAEの発現例が1例たりとも無ければ、95% の確率で発現率は 0.1% を超えないだろうと言えるわけです。