『入門 統計学─検定から多変量解析・実験計画法まで』

※コラム「統計備忘録」の記事一覧はこちら


エクセル統計を活用した統計学の入門書のご紹介です。タイトルは『入門 統計学 ―検定から多変量解析・実験計画法まで―』、著者は千葉大学園芸学准教授の栗原伸一先生です。

created by Rinker
¥3,120 (2025/10/30 08:26:29時点 Amazon調べ-詳細)

栗原伸一先生は農業経済学がご専門で農業経営・経済学、農村計画、政策評価、消費者行動分析を研究され、大学では、農業経済学以外にも統計学やマーケティング・リサーチの授業を担当されているそうです。

先生の研究範囲の幅広さが反映されて、本書は、統計学の基礎である推測統計学(推定と検定)。実験系では欠かせない分散分析・多重比較・実験計画法。ノンパラメトリック検定によるカテゴリデータと順位データの検定。そして多変量解析(重回帰分析、主成分分析と因子分析、判別分析とクラスター分析)と入門書に留まらない内容です。

多重比較以降は「SPSS Statistics 19」や「エクセル統計2010」を使いながらの解説になります。両ソフトの違いについても説明がありますので、どちらを購入しようか迷っている方は読んでみてください。

割合、率、比

※コラム「統計備忘録」の記事一覧はこちら


前回は「割合と比率」について何が違うのか調べてみたが、私の結論としては和語と漢語の違いということに落ち着いた。これ以外にも「率」とか「比」なんかも、使い分けに不安を覚えることがある。そこで、疫学の本を見てみることにした。

日本疫学会が監修した『はじめて学ぶやさしい疫学 改訂第2版』を読むと、「割合」、「率」、「比」を次のように説明している。

created by Rinker
¥2,750 (2025/10/30 02:23:32時点 Amazon調べ-詳細)

割合 proportion
 特定部分の全体に占める大きさ
 例)肥満者の割合=肥満者数/対象者全体の人数
  (対象者全体の人数=非肥満者数+肥満者数)

率 rate
 割合とほぼ同じ意味ではあるが、単位時間当たりの変化を表す場合が多い。
 例)死産率=死産数/出産数
  (出産数=出生数+死産数) 出生数、死産数は1年間の発生数

比 ratio
 二つの量の比較に用いる(分子と分母が異なる)
 例)死産比=死産数/出生数、男女比=男/女

一見すると明快のように見えるが、この後の「疫学で用いられる指標」の解説を幾つか読むとまた混乱してしまうのではないかと思う。例えば「有病率( prevalence )」であるが、これは「割合」だ。有病率の定義は次の通り。

『ロスマンの疫学―科学的思考への誘い』の中では、「・・・<有病割合>( prevalence proportion )、 ないし、しばしば単に<有病率>(prevalence)といわれるものは・・・」となっていて、初期に日本語に翻訳されたときの慣習がそのままになっているような感じだ。

created by Rinker
¥2,750 (2025/10/30 02:23:33時点 Amazon調べ-詳細)

有病率と並んでよく使われる疫学用語では罹患率( morbidity、ないしは、morbidity late )があるが、こちらは「率」の定義に合致している。

したがって、1万人を1年間調査した場合の罹患率は1万人年が分母になる。罹患率ではなく発生率( incidence rate )という言葉を用いることもあるが、英語辞書を見ると morbidity は病気の発生に限定され、incidence は犯罪の発生など病気以外にも使えるようだ。

「比」については概念的には分かり易いと思うが、「リスク比」と「オッズ比」の違いなどは疫学をやっていなくとも知っていて損はないので、またの機会に取り上げようと思う。

割合と比率

※コラム「統計備忘録」の記事一覧はこちら


調査の報告書を書いていると、「○○の割合は▲▲%」と「○○の比率は▲▲%」のどちらを使おうか迷うことがある。

Yahoo辞書(『大辞泉』を使っている)で「割合」を調べると「全体に対する部分の、または他の数量に対するある数量の比率」、「比率」は「二つ以上の数量を比べた時の割合」と書いてある。割合の説明に比率が使われ、比率の説明に割合が使われている。

今一つすっきりしないので、岩波書店の『日本語 語感の辞典』も調べてみる。こちらでは、「割合」が「他と比べての意で、会話でも文書でも広く使われる日常の和語」、「比率」は「一方の他方に対する割合をさし、会話にも文章にも使われる漢語」とあった。和語と漢語の違いだったのかと妙に納得する。ついでに調べてみると「わりかし」は「割合の意の比較的新しい感じの俗語」、「わりかた」は「割合の意のやや古風な俗語」とあった。

created by Rinker
¥3,740 (2025/10/29 15:50:50時点 Amazon調べ-詳細)

統計学のテキストでは、「全体に対する部分」という意味では「比率の差の検定」のように「比率」をあてることが多いが、これは漢語を使って堅苦しくみせるためのようだ。なお、この「比率」を英語にするなら proportion を用いる。和英辞典では「割合」や「比率」にあたる英語として rate や ratio と訳され、proportion が出ていないこともあるので注意が必要だ。

さて、本題に戻って「割合」と「比率」のどちらを使うかだが、どちらを使っても問題は無いようなので、報告書のトーンによって使い分けようと思う。

『心理学データのエクセル統計』

※コラム「統計備忘録」の記事一覧はこちら


恵泉女学園大学で心理学を教えていらっしゃる深谷澄男先生、喜田安哲先生、伊藤尚枝先生の共著で、エクセル統計2010を利用した統計学の入門書『心理学データのエクセル統計』が、北樹出版より2011年6月から出版されています。

created by Rinker
¥359 (2025/10/30 08:24:46時点 Amazon調べ-詳細)

喜田先生に伺ったところ、恵泉女学園大学では心理学の学生全員のパソコンにエクセル統計をインストールし、2年生の時に1年かけて統計学と実際の統計解析の仕方を学ぶそうです。アンケートを使った卒論研究をゴールとしているとのことで、Excelへのデータの入力から統計量やグラフによる結果の要約、統計的仮説検定、多変量解析を使ったデータ分析までと、本書も大変意欲的なテキスト構成です。

Likert scale

※コラム「統計備忘録」の記事一覧はこちら


Likert scaleはLikert(1932)によって提案された心理測定法です。質問紙調査では回答者の態度や価値観を調べるときに用いられ、日本語では、リッカート尺度、リカート法、ライカート法など、人によって微妙に表現が異なります。

Likert scaleの第1の特徴は、次の5段階評価のように質問に対する賛否の程度を選択肢から選んで回答してもらいます。5段階評価が良いという人もいれば、7段階評価が適しているという人もいます。賛否どちらかにしてもらうために「どちらともいえない」を抜いて、4段階や6段階評価にすることもあります。質問の内容や、回答者の知性(子供に7段階は難しいなど)にもよるので何段階が最も適しているか一概には言えません。「全く」、「やや」、「あまり」など、副詞の捉え方も個人差がありますので、両端と真ん中の「どちらともいえない」だけ残して、「やや当てはまる」などは数字のみにしてしまうこともあります。

第2の特徴としては、この例のように「ユニークネス」を測りたいのなら、「ユニークネス」と関連が強いであろう幾つかの質問(山岡氏のユニークネス尺度は24の質問項目で構成されています)を行い、各質問の回答を点数化し、点数の合計でもって回答者のユニークさを評価します。人によっては「賛否の段階評価=Likert scale」と説明していることもありますが、それだけではLikert scaleと言えません。

各選択肢への点数の与え方は、質問ごとに、平均値が0、標準偏差が1になるよう標準化しておくのが本来の方法だったように記憶しています。既存の心理尺度など信頼性、妥当性がある程度確保されている質問群を使うなら、簡便的に、段階に応じて1点刻みの点数を与えるというのもよく行われています。

新たにオリジナルのLikert scaleを作ってみたいというのであれば、村上宣寛先生の『心理尺度の作り方』が参考になると思います。このとき必要になる因子分析やクロンバックのαなどはエクセル統計にも搭載されています。

created by Rinker
¥2,420 (2025/10/30 07:24:02時点 Amazon調べ-詳細)

closed-ended questions / open-ended questions

※コラム「統計備忘録」の記事一覧はこちら


アンケートの質問を回答の仕方で分類すると、大まかには closed-ended questionsopen-ended questions の2つに分けることができます。

Closed-ended questions とは、質問に対する回答の候補が選択肢として挙げられていて、その選択肢の中から自分にあてはまる選択肢を1つ以上選ぶタイプの質問です。英語では multiple-choice questions (多肢選択式質問)と表現されることもあります。この回答選択式の質問はさらに2つに分かれます。

選択肢を1つだけしか選べない場合を単回答もしくは単一回答の質問と言います。略すときは single answer から「SA」となります。SAの中には3つのタイプの質問があります。1つ目は、性別、職業など質の違いが選択肢になっているタイプです。統計学の世界では名義尺度と呼ばれているものです。2つ目は、同意の程度や好き嫌いの順位などを選択肢から選択するタイプです。この場合、選択肢には順序性があります。順序尺度用の統計手法を利用することができます。3つ目は量的なことを回答しやすいように量を階級に区切って、これを選択肢として選んでもらうタイプです。年齢とか年収とかのように正確な数字を答えるのに抵抗感が生じる場合によく用います。

選択肢を複数選ぶことができる質問を複数回答もしくは多重回答の質問と言います。こちらは multiple answers から「MA」と略します。複数回答による質問は、選択肢をばらして、選択肢1つずつを「はい/いいえ」で答えてもらう形に変更することができます。また、検定や多変量解析など統計的手法を用いてデータ分析をするときは、各選択肢それぞれを1個のデータ変数(最も多いのは1/0型のダミー変数)として扱います。

一方、open-ended questions とは選択肢がなく、数値や文章で回答を記述してもらう方式の質問です。

身長とか収入といったように数量を数値で答えてもらう質問を英語では numeric open-ended questions と表現します。その回答は数量回答数値回答と呼びます。アンケート集計ソフトの秀吉では省略形を numeric answer から「NA」としています。アンケートの世界では「無回答」のことを「NA(no answerより)」と略すことがあるので、注意してください。

文章や語句で回答してもらう質問は text open-ended questions ですね。その回答は文章回答自由回答などと呼びます。こちらについては、「OA」、「FA(free answerより。秀吉ではこちらを使用)」などと略されることが多いですね。TAと略しているのを見かけた覚えはありません。

enquête

※コラム「統計備忘録」の記事一覧はこちら


アンケートはフランス語です。綴りは enquête になります。enquête は「探し求める」を意味するラテン語 inquerere に由来します。日本ではアンケートというと、調査に用いる「質問紙」そのものか、「質問紙調査」という意味で使われていることが多いですね。フランス語の enquête は、もっと意味が広くて、捜査、探索といった意味も含まれています。質問紙を英語にしたいのなら questionnaire です。質問紙調査は survey research でしょうか。

なお、報告書や論文に「アンケート調査」と書くと「質問紙調査調査」と言っているのと同じじゃないかと茶々をいれる人がいるので、論文などでは「質問紙調査」としておくのが無難です。

さて、アンケートは世論調査にも用いられますが、世論調査を英語にすると opinion poll です。poll には投票とか選挙という意味もあります。国勢調査は population census、もしくは、単に census です。census(センサス)は全数調査(対象者のすべてを調べる調査)を指します。

そういえば、2015年は国勢調査の年でしたが、国勢調査は5年毎に行われます。日本で最初の国勢調査は大正9年(1920年)です。終戦の年だけ行われなかったので2015年の調査が20回目の国勢調査になります。世界中のほとんどの国が同じタイミングで国勢調査を行っているので、時系列で世界との比較ができます。

クロス集計表から分析する(4)

※コラム「統計備忘録」の記事一覧はこちら


今回は、残る2つ、コレスポンデンス分析と双対尺度法(そうついしゃくどほう)について触れます。コレスポンデンス分析はフランス人のベンゼクリ(Benzecri,J,P.)が1970年代に、双対尺度法は日本人の西里静彦氏が1980年に提案しました。

この2つの解析手法は、クロス集計表の行の要素と列の要素を、1枚のマップ上にレイアウトするために用います。西里静彦氏の『質的データの数量化』(朝倉書店,1982)に載っていたデータを利用して、それぞれのマップを比べてみましょう。

データとなるクロス集計表は、ガーマイズとリラクラが行ったロールシャッハ・テスト(心理テストの1つ。インクのシミのような模様を見せて、何に見えたかを聞き取るテスト)による実験の結果です。列は被験者がロールシャッハ図版を眺めていた時の気分、行が図版が何に見えたかです。



枠線で囲んだ範囲をエクセル統計に読み込ませて分析します。どちらの手法を利用しても、アウトプットの末尾に1枚のマップが出力されます。次の(1)がコレスポンデンス分析を使って、(2)が双対尺度法を使って分析し得られたマップです。

一見すると異なるマップのようですが、(2)のマップを180度回転させると、(1)のマップと同じになることが分かります。つまり、この2つの解析手法により得られる座標の値は異なりますが、結論としては等質です。つまり、要素間の相対的位置関係は等しくなります。

マップ上の要素間の距離の近さは、出現の仕方が似ているということを意味するので、どちらのマップを見ても、安心して眺めていた人は山に見えた人が多く、蝶や血に見えた人は少なかったということです。同じ集計表から得たマップですから、異なる配置になったら困ってしまいますね。



さて、この2つ解析手法を用いる場合、分析する集計表は3行×3列以上でなければいけません。2行或いは2列のクロス集計表をマッピングしたいなら、集計表からではなく元となったデータから、数量化3類を使って分析するとマップが得られます。



なお、エクセル統計のコレスポンデンス分析では、%表や平均値表からもマップを作成することも可能です。

クロス集計表から分析する(3)

※コラム「統計備忘録」の記事一覧はこちら


続けて紹介するのは、マクネマー検定、グッドマン・クラスカルのγ(ガンマ)、グッドマン・クラスカルのτ(タウ)、カッパ係数です。

マクネマー検定

マクネマー検定は2×2のクロス集計表に対して用いることができます。独立性の検定は2変数間に関連があるかどうかを有意判定するために用いますが、投薬の前後である症状の有無が変化したかどうかというように、変化の有無を調べるための検定です。コラムの「対応のあるデータの検定(2)」でも説明しています。

グッドマン・クラスカルのγ(ガンマ)

クロス集計表の表頭、表側の変数ともに、カテゴリーに順序があれば、この機能を用いて2変数間の順位相関係数を計算することができます。クロス集計表から計算できる順位相関係数は、グッドマン・クラスカルのγ、ケンドールのτb(タウ・ビー)とτc(タウ・シー)の3つです。順位相関係数はピアソンの積率相関係数と同じように-1から1までの値をとり、0は無相関です。

グッドマン・クラスカルのτ(タウ)

クロス集計表の表頭、表側いずれかの変数を独立変数(原因)、残る片方の変数を従属変数(結果)と見なし、グッドマン・クラスカルのτ(誤差減少率)を求めます。 τが1なら、独立変数の値によって従属変数の値を100%推定できます。τが0なら独立変数と従属変数は独立しており因果関係は認められないということになります。表頭を独立変数とした場合、表側を独立変数とした場合の2通りのτが出力されます。

カッパ係数

カッパ係数は、2つの検査法による検査結果が一致しているか、2人の評価者の評価が一致しているかといったように、同一の対象について2通りの測定を行った結果から、2つの測定の一致度を表す係数です。したがって、クロス集計表は表頭、表側ともに同じカテゴリーの配置になります。カッパ係数の有意性の検定も行います。コラムの「2人の鑑定結果 ―カッパ係数による一致度の計算」「重み付きカッパ係数 ―順序尺度の場合のカッパ係数」で説明しています。



次回は、残る2つ、クロス集計表からできる多変量解析について書きます。

クロス集計表から分析する(2)

※コラム「統計備忘録」の記事一覧はこちら


「クロス集計表から分析する」に続き、今回もエクセル統計を用いてクロス集計表からどのような分析ができるか、簡単に説明します。



今回の2つは「多層の」と頭についていますが、どちらも、複数の研究結果を統合して評価する「メタ・アナリシス」でも用いられます。これは3重クロス(3元クロスなどともいう3変数による集計)のクロス集計結果に対する検定方法です。2変数のクロス集計であればエクセル統計の同一メニュー内にある「クロス集計表の作成(エクセル等統計2010まで)」で簡単にできますが、3重クロスの機能はエクセル統計2012から搭載されています(「クロス集計表の作成と分析」を使用)。Excelだけで3重クロスを行うならピボットテーブルを使ってください。もしくは、秀吉のような集計ソフトを使うのが便利です。

コクラン=マンテル=ヘンツェル

まず、層別のクロス集計結果より、層ごとに4種類の検定(カイ二乗、尤度比カイ二乗、マンテル・ヘンツェルのカイ二乗、Fisherの直接確率)を行います。クラメールの連関係数(CremerのV)、オッズ比・リスク比の区間推定も算出します。続けて、層別要因となる第3の変数の影響を調節したコクラン・マンテル・ヘンツェル法による検定の結果(CMHの相関統計量とその有意確率)と、調整済みリスク比・オッズ比の区間推定も行います。なお、Breslow-Day検定によって、層が異なってもオッズ比が等しいかどうかも同時に検定します。

拡張マンテル検定

コクラン・アーミテージ検定の3重クロス版です。多層の2x2表の検定のときと同じく、層別のクロス集計結果より、層ごとに4種類の検定を行い、クラメールの連関係数(CremerのV)を算出します。その次に、マンテル・エクステンション法による検定結果(CMHの相関統計量とその有意確率)を出力します。