変数の分類

※コラム「統計備忘録」の記事一覧はこちら


Wikipediaによると、変数の尺度を名義、順序、間隔、比例の4つに分けようと提案したのはスタンレー・スティーブンズ(Stanley Smith Stevens)。1946年にサイエンス誌に発表された"On the theory of scales of measurement"という論文でとのことです。

尺度の違いは当サイトの統計用語集でも読んでいただくとして、各尺度にどのような統計量を用いることが許されているか論文から抜粋しておきます。



【名義尺度に対して】
Number of cases 各ケースの数、計数(count)、頻度(frequency)
Mode 最頻値
Contingency correlation 連関係数


 

【順序尺度に対して】
Median 中央値
Percentiles パーセンタイル


 

【間隔尺度に対して】
Mean 平均値
Standard deviation 標準偏差
Rank-order correlation 順位相関係数
Product-moment correlation 積率相関係数(いわゆる相関係数のこと)


 

【比例尺度に対して】
Coefficient of variation 変動係数




4つの尺度は、名義<順序<間隔<比例という上下関係があり、上位の尺度は下位の尺度の統計量を用いることができます。したがって、比例尺度の変数には中央値や平均値を用いることができますが、間隔尺度の変数で変動係数を求めても意味がありません。なお、現在では順序尺度に対しても順位相関係数を使うことがあります。

さて、変数について、もう少し大まかな分け方もあります。1つは、離散変数(discrete variable)と連続変数(continuous variable)という分け方で、名義尺度と順序尺度は離散変数に属し、間隔尺度と比例尺度は連続変数に属します。離散変数についてはカテゴリー変数(categorical variable、カテゴリカル変数とも)という呼び方もあります。

もう1つの分け方は、質的(qualitative)、量的(quantitative)という分け方です。質的は名義尺度に対して用いられます。順序尺度はグレーゾーンにあって質的にも量的にも扱われることがあります。

統計解析の手法は、目的変数や説明変数の尺度に対応して異なります。分散分析では、説明変数に質的変数を用いるとき因子(factor)と呼び、量的変数を用いるときには共変量(covariable)と呼びます。、共分散分析の「共」は共変量に由来します。

本によって変数のところが変量であったり、データであったりするのは 、「変量と変数」の記事に書いたとおりです。

変量と変数

※コラム「統計備忘録」の記事一覧はこちら


統計学の本を読んでいると、本によって、「変量」という語を使っていたり、「変数」を使っていたりする。文脈からすると同じ意味として使われているようなので、以前はどちらも variable の訳語かと思っていた。このようなコラムを書いていることから気になって調べてみると、竹内啓先生が編集委員代表を務めた東洋経済新報社の『統計学辞典』に次のように書いてあった。

「統計集団をなす個体が“担っている”数量を抽象化して変量( variate )と呼ぶことが多い.数学の変数( variable )の概念に対応するが、個体に応じて変化し,物理的,経済的な意味をもつ量であるとの意識が強い.データは変量がとる値( value )である.しかし,変量とデータは変数と変数値のように混同されがちであり,うるさく区別しないほうが便利である.変量と変数も混同されがちで,本辞典内でも区別しない場合が多い」

統計学辞典 「1.2.1 データと変量」より抜粋


本来、変量と変数は異なる概念ではあるけれど、現実には区別しないということのようだ。このコラムやエクセル統計では、説明変数と目的変数というように主に「変数」を使っているが、どうやら、「変量」に換える必要はなさそうである。


 

さて、説明変数と目的変数についても幾つかの表現があるので、ついでにまとめておく。

【説明変数 x】
説明変数 explanatory variable
予測変数 predictor variable
独立変数 independent variable



【目的変数 y】
目的変数、応答変数、反応変数 response variable
結果変数 outcome variable
従属変数 dependent variable
基準変数 criterion variable

もちろん、〇〇変数( variable )ではなく〇〇変量( variate )とする本も多い。

なお、変量を含む語に「多変量解析」というのもあるが、こちらは、絶対に「多変数解析」とはならない。数学の中に「多変数(解析)関数論」というジャンルがあり、統計学の多変量解析とは別物であるからだ。まれに「多変量分析」という書き方をしている本もあるが、これは「多変量解析」と同じ意味になる。

説明変数を外生変数(exogenous variable)、目的変数を内生変数(endogenous variable)と書いてある本もあり、経済学系で使われることが多いようである。

欠損値の対処法

※コラム「統計備忘録」の記事一覧はこちら


欠損値は misshing value の訳です。欠測値という言い方もします。今回は欠損値があった場合にどのような対処があるか触れておきます。

欠損値があった場合の対処には、次のような幾つかの方法が考えられています。
1.欠損値を放置
2.欠損値を含むケースをリストごと削除
3.欠損値に平均値を代入
4.欠損値を含む人と属性の似ている人の値を代入( hot-deck imputation )
5.重回帰式などによって値を推計して代入( cold-deck imputation )
6.前回の観測値を代入( LOCF, LVCF )
7.多重代入法により代入( multiple imputation )

 

1.欠損値を放置

「Excelによる欠損値の扱い」の記事で書いたようにExcelは欠損値の対応が完全ではないので注意が必要ですが、大概の統計ソフトでは、データの中に欠損値があっても放置しておいて大丈夫です。自動的に欠損値を除いて計算してくれます(統計手法によっては欠損値が認められないケースもありますが)。

2.欠損値を含むケースをケースごと削除

これは「Excelで欠損値を含むデータを除く方法」の記事で書いたように、欠損値を含むケースをケース(行)ごと削除(casewise deletion、listwise deletion)します。1つ1つの変数の中では欠損値が少なくとも、変数によって欠損値のあるケースが異なると、削除してみたら、ほとんど有効ケースが残っていなかったということもあります。統計ソフトで多変量解析を行うと、大概は、自動的にケースワイズ削除の機能が働きます。

3.欠損値に平均値を代入

欠損値の箇所に欠損値を含まないデータから計算した平均値を代入します。この方法であれば代入後に平均値を計算しなおしても平均値は変化しません。ただし、分散、標準偏差は小さくなるので、検定結果に強く影響します。

4.欠損値を含む人と属性の似ている人の値を代入(hot-deck imputation)

ホットデック法、ホットデック代入法と呼ばれています。例えば、欠損値を含む人65歳の女性であれば、残りの有効なデータの中から同じ65歳女性を探し出して、その人の値を欠損値に代入します。同じ属性の人が複数いる場合は、複数の中から無作為に1件を選択して代入します。

5.重回帰式などによって値を推定して代入(cold-deck imputation)

コールドデック法、コールドデック代入法と呼ばれています。欠損値がある変数を目的変数に、属性など目的変数に影響しそうな変数を説明変数にして重回帰分析などにより目的変数を推定するモデル式を作成します。続いて、欠損値がある人について、モデル式を利用し推定値を算出、代入します。

6.前回の観測値を代入(LOCF,LVCF)

同じ人を追跡調査している場合、前回の調査で得られた値を代入します。前の3つの代入法よりも確実な方法と言えます。英語では、last observation carried forward(LOCF)、もしくは、last value carried forward(LVCF) と言います。

7.多重代入法により代入(multiple imputation)

Rubinが1987年に発表した比較的新しい方法です。SAS(SAS9から正規版とのこと)やSPSS(SPSS Missing Valuesオプションの機能)など幾つかの統計ソフトに搭載されているようです。私自身はまだ使ったことがないので詳しいことは分かりません。

 

上記以外にも対処法があるようですが、まだまだ勉強不足なので、今回は、このあたりで筆を置きます。

created by Rinker
¥5,280 (2025/10/29 15:06:13時点 Amazon調べ-詳細)

欠損値が生じる理由

※コラム「統計備忘録」の記事一覧はこちら


マーケティング・リサーチの世界では、今や WEB上でのアンケートがすっかり主流になってしまったので、データに欠損が生じることが少なくなりました。紙のアンケートであれば、回答者には出来の悪い質問に対し無回答で対抗するという手段がありましたが、WEB のアンケートでは本意ではない選択肢をチェックするか、ブラウザを閉じてアンケートへの協力を止めてしまうか、どちらかということになります。無回答が生じた理由を考えるというのは、アンケートを分析する上でとても大切なことです。普段、WEBアンケートしかしない方は、質問紙による調査にもチャレンジしてみてください。分析する能力、質問を作る能力を高める良い機会になります。

さて、質問紙によるアンケートでは、「質問の不備」以外にも、データに欠損が生じることがあります。「データ入力時のミス」や「回答者の不注意」によるものです。

データの入力ミスを少なくする方法としてダブルパンチ( double punch )があります。ダブルパンチとは2度データを入力することです(データ入力のことを、なぜ、punch 穴を穿つ というのかは、Wikipedia でパンチーカードタビュレーティングマシンの解説を読むと分かります)。ダブルパンチが終わったら2つの入力結果を照合します。2つの入力結果が異なればどちらかが入力ミスをしていることになりますから、そのときは質問紙の回答内容を調べて入力ミスを正します。ダブルパンチをする場合、できれば1度目と2度目で人を換えて入力します。同じ人が2度入力すると、2度目も同じようにミスをする可能性があるからです。また、入力ミスを正すことをベリファイと言います。秀吉のように、2度目の入力をする時、質問ごとに1度目に入力された値と比較し、値が違っているとその場で警告してくれるソフトもあります。手元に入力中の質問紙がありますから、どちらが正しいかすぐに確認できます。

ベリファイ後も残っている欠損値は、回答者の不注意による見落としか、回答者が意図的に回答しなかったのかどちらかということになります。一人ひとりの回答傾向をみればおおよその見当はつきますが、完全に見極めるのは不可能です。見落としがおきやすいのは、質問のレイアウトが悪かったり、同じような回答形式の質問が延々と続いていたり、特定の人にだけ答えさせるようなろ過条件付きの質問があったりするときです。質問が性別、年齢、年収など、回答者のプライバシーに関わる質問になると回答を拒否する人が出てきます。このどちらにもあてはまらない質問で欠損値が多かったとすると、質問の出来が悪かったからでしょう。回答者によるデータの欠損を少なくするには、アンケートのプリテストを行います。試作したアンケートを10人ぐらいに答えてもらい、回答後、どの質問が回答しづらかったかを確認し、本番用のアンケートを手直しすれば良いのです。

こうした手間を掛けても、なお残る欠損値に対しどう対処できるかは、次回、書きたいと思います。

Excelで欠損値を含むデータを除く方法

※コラム「統計備忘録」の記事一覧はこちら


Excelだけで統計処理をしたいと思ったら、事前に欠損値を含むデータを除いておく必要があります。私が使う方法の1つは COUNT関数とデータの並べ替えを組み合わせるものです。

COUNT関数は文字通り個数を数える関数です。

A2 から C2 の 1行3列のデータについて、各行ごとに、数値が入力されているセルの個数を数えるなら、

=COUNT(A2:C2)

空白以外のセルの個数を数えるなら、

=COUNTA(A2:C2)

空白のセルの個数を数えるなら、

=COUNTBLANK(A2:C2)

と入力します。

X,Y,Zとも数値が入力されているデータのセットを作りたいなら、COUNTの結果の列で降順に並び替えをします。

こうすれば、すべて数値が入力されているデータが上側に全部寄せられますから、分析するときには5行目までを範囲指定すれば良いということになります。

COUNTAとCOUNTBLANKは裏返しの関係になります。空白のセルを含むデータだけを除きたいのなら、COUNTAの結果を使って降順に並べ替えるか、COUNTBLANKの結果を使って昇順に並べ替えるかです。

大昔からコンピュータを使っていた方だと、欠損値に「9」や「999」など特定の値を入力しておき、計算時に除くという事をしていたかと思いますが、この方法はあまり賢くありません。除き忘れると欠損値として入れた数値まで含めて計算してしまいますし、COUNTによる並べ替えも意味を成さなくなります。

なお、エクセル統計を使って欠損値を含むデータをクリーニングする場合は、「欠損値チェック」の機能を利用すると簡単です。

Excelによる欠損値の扱い

※コラム「統計備忘録」の記事一覧はこちら


Excelを統計ソフトとして使う上で問題点の1つとなるのが、欠損値の扱いが一定していないことです。関数によっても異なりますし、同じ統計処理でも関数を使った場合と分析ツールを使った場合でも異なります。

次の例を見てください。シート上には2行目から9行目まで空白や文字の混ざったデータを入力してあります。このデータを使って相関係数(CORREL関数)、t検定(TTEST関数)、回帰分析(LINEST関数)の結果がどうなるか比べてみましょう。

まず、CORRELとTTESTでは空白や文字列が混ざったデータでも計算してくれるようです。CORRELの場合は V1、V2 と数値データが対で揃っているところだけを使って計算しています。従って、2行目から 9行目までを指定してもデータの揃っていない 7行目以降は除かれ、 2行目から 6行目だけが計算対象のデータとなっています。12行目と 13行目の CORREL関数の結果が一致するのはそのためです。

16行目は TTEST関数による対応のない 2群の t検定の結果です。対応のない t検定ではデータが対になっている必要はないので、V1 は 2行目から 8行目まで、V2では 2行目から 6行目までのデータを使って t検定が行われます。

19行目は TTEST関数による対応のある 2群の t検定の結果です。対応のある t検定ではデータが対になっていなければいけないので、CORREL関数と同じくデータが対になっている 2行目から 6行目までが計算対象となります。

22行目は回帰分析の結果ですが、LINEST関数では指定した範囲に空白や文字列など数値以外が含まれていると、このように"#VALUE"を返します。CORRELでは対になっているデータだけで計算してくれるのですから、LINESTも同じように振舞ってくれればと思います。



また、Excelでは分析ツールからも相関係数の計算や、t検定や回帰分析を行うこと出ができますが、不思議なことに、関数と分析ツールでは欠損値の扱いが異なります。

分析ツールから[相関]を選択し、先ほどと同じデータを[入力範囲]に設定して[OK]ボタンをクリックすると、次のメッセージが表示されます。

t検定でも、

回帰分析でも、

「数値以外のデータがあります」と、すべて撥ねられてしまいました。分析ツールの方がさらに融通が利かなくなっています。

通常の統計ソフトであれば、欠損値を含む場合、有効なデータだけを使って処理してくれるものです。エクセル統計が使われる理由の1つも欠損値対応があるからでしょう。

観測やアンケートによって得られたデータなら欠損値があるのは、ごく普通のことです。次回は、Excelだけで統計処理をしたいという方のために、欠損値を効率よく消すテクニックをお話したいと思います。

Excelで重回帰分析(6)―重回帰分析の分散分析とt検定

※コラム「統計備忘録」の記事一覧はこちら


Excelの分析ツールを使って重回帰分析を行うと、2種類の検定結果が出力されてきます。1つは分散分析表、「母重相関係数は 0(ゼロ)である」という帰無仮説を検定しています。もう1つは偏回帰係数に続いて出力される t 検定の結果で、「偏回帰係数は 0 である」という帰無仮説を検定しています。




分散分析表のチェックポイントは「有意F」の値です。この値は、「回帰」と「残差」の2つの「自由度」に基づくF分布における「観測された分差比(=F値)」の上側確率です。一般的な統計ソフトなら「p値」として示されています(同じ分析ツールでも分散分析の出力では「P値」を使っています)。

有意水準を p<0.05(5%)に設定していたのなら、この分散分析表の「有意F」は 0.041 ですから、「母重相関係数は 0 である」という帰無仮説が棄却され、「母重相関係数が 0 ではない」という対立仮説が支持されたことになります。これは、重回帰式により説明できる目的変数の変動が統計的検定によっても確認できたことを意味します。

この事例では、重相関係数が 0.851 と非常に高いのに、観測数が 10 個しかないためかろうじて有意でしたが、観測数が多くなれば、重相関係数が 0.3 未満と低い値でも有意になります。したがって、分散分析の結果が有意になったからといって安心せず、重相関係数や決定係数の値を必ず確認してください。重相関係数がどの程度あればよいかは分析の目的によって異なります。目的が予測モデルを作ることにあるのなら、重相関係数が 0.8 とか 0.9 といった高いレベルを目指すことになります。


単純にデータをコピペで2倍にしただけの重回帰分析の結果

※重相関係数や決定係数の値に変化はないが分散分析の有意 F は
0.000 とかなり小さくなる。



分散分析の結果が有意になったら、次に、各説明変数の偏回帰係数の t 検定の結果を確認します。

偏回帰係数のt検定ですが、こちらは有意になった場合、「偏回帰係数は 0 ではない」ということになります。検定統計量 tは「(偏回帰)係数/標準誤差」で求まります。この t の値は、分散分析表の誤差の自由度による t 分布に従います。この t 値と t分布から両側確率が求められ「P-値」のところに出力されています。統計ソフトによっては、t 値の代わりに F 値が出力されているものがありますが、t2 = F という関係にあり、どちらでも確率は同じです。

この検定は「偏回帰係数が 0 ではない」を対立仮説とする両側検定の結果ですが、対立仮説が、「偏回帰係数が 0 より大きい」あるいは「偏回帰係数が 0 より小さい」なら片側検定になりますから、その場合は「P-値」を2で割ってください。

「P-値」の右側には「下限 95%」、「上限 95%」の出力があります。これは、偏回帰係数の信頼区間です。「P-値」が 0.05 以上なら信頼区間の限界値は 0 を挟んだ値になります。説明変数の影響がプラス、マイナスのどちらもありうるということです。今回の事例では、どの説明変数の偏回帰係数も 0.05 以上なので、すべての信頼区間が 0 を含んでいます。

偏回帰係数が有意ということは、その説明変数の目的変数に対する影響力が統計的にも確認できたということです。ただし、この影響力を絶対的なものと考えるのは誤りです。説明変数の組み合わせを変えれば、偏回帰係数は変化してしまいます。目的変数との関係が第3の変数を介した間接的なものであったり、交絡因子が存在したりという場合です。新たな変数を加えて重回帰分析をし直したら、影響力が消えてしまった、偏回帰係数の符号が逆転したということは珍しくありません。

第3の変数の影響については、また別の機会に触れたいと思います。

Excelで重回帰分析(5)―自由度調整済み決定係数

※コラム「統計備忘録」の記事一覧はこちら


今回は、「重相関係数と決定係数」からの続きです。

さて、分析ツールによる回帰分析の「回帰統計」の出力欄には、重相関係数と決定係数のほかに、「補正 R2」と「標準誤差」というのがあります。

「補正 R2」は、一般に「自由度調整済み決定係数」あるいは「自由度修正済み決定係数」と呼ばれるものです。次の式によって求まります。式の中の p は説明変数の数です。

重回帰分析で説明変数を増やしていくと決定係数は次第に 1 に近づいていきます。例えば同じサンプルのデータで、説明変数が 3個と 4個の 2通りの重回帰分析を行った場合、説明変数を 4個にした方が決定係数は高くなります。決定係数が高くなったのが説明変数の数を増やしただけの効果によるものか、増やした以上の効果があったのかを見たいとき、この自由度調整済み決定係数を比較します。説明変数を増やした場合の調整済み決定係数の方が高ければ、説明変数を増やしたことにより重回帰式の精度が良くなったと評価できます。

自由度調整済みの決定係数( R2' )と調整していない決定係数( R2 )を比較すると、調整済み決定係数の方が小さくなります。また、n が小さなサンプルでは 2つの値の差が大きくなります。先ほどの式を次のように展開してみると理由が良く分かります。

次に「標準誤差」ですが、これは分散分析表の「残差の分散」の二乗根です。Excelに次の式を入力して確認してみてください。

=SQRT(残差の分散)

残差は観測値と重回帰式による推定値の差です。標準誤差が「残差の分散の二乗根」ということは、すなわち「残差の標準偏差」ということになります。この値をみれば、重回帰式による推定値からどの程度の範囲に観測値が散らばっているのか見積もることができます。

主成分分析と因子分析の違い

※コラム「統計備忘録」の記事一覧はこちら


多くの統計ソフトでは、主成分分析が因子分析の計算オプションの1つとして組み込まれているので、因子分析をしたつもりが主成分分析だったということがよくあるようです。

主成分分析は多数の観測変数から少数の主成分という合成変数を作り出す手法で、観測変数と主成分の因果関係をパス図に描くと次のようになります。主成分分析では観測変数が原因で主成分は結果です。

一方、因子分析は観測変数に影響を与えている共通因子を抽出する方法で、観測変数と因子の因果関係をパス図に描くと次のようになります。因子分析では(共通)因子が原因で観測変数が結果と主成分分析とは因果関係が逆になります。なお、この図にある独自因子とは、個々の観測変数固有の因子です。

主成分分析と因子分析はこのように異なる考え方に基づく分析手法ですが、因子分析の主因子法という因子の抽出法(因子分析には最尤法、最小二乗法など色々な計算方法があります)を用い、共通性の初期値をすべて1にして繰り返しをなしで共通因子を求めると、抽出された共通因子は主成分分析の主成分に一致します。このことから、主因子法のことを主成分分析だと勘違いしている人もいるようです。なお、主因子法を使った因子分析を行うときは、共通性の初期値にSMC(重相関係数の二乗)を設定し、共通性の値が収束するまで計算を繰り返すのが一般的です。

ギリシャ文字による統計記号

※コラム「統計備忘録」の記事一覧はこちら


統計関連の本や論文には必ずといってよいほどギリシャ文字が使われています。ギリシャ文字の読み方と、一般的な統計記号としての意味を表にまとめておきましたのでご利用ください。特に注釈のない場合を除き、通常は小文字を用います。表にあげた以外の意味で使われることもありますから注意してください。

文字の上に"^"(ハットまたはカレットと読みます)が付いている場合、母数の推定量であることを意味します。