変数の分類
2017/08/19
カテゴリ:コラム「統計備忘録」
タグ:統計備忘録
※コラム「統計備忘録」の記事一覧はこちら※
Wikipediaによると、変数の尺度を名義、順序、間隔、比例の4つに分けようと提案したのはスタンレー・スティーブンズ(Stanley Smith Stevens)。1946年にサイエンス誌に発表された"On the theory of scales of measurement"という論文でとのことです。
尺度の違いは当サイトの統計用語集でも読んでいただくとして、各尺度にどのような統計量を用いることが許されているか論文から抜粋しておきます。
【名義尺度に対して】
Number of cases 各ケースの数、計数(count)、頻度(frequency)
Mode 最頻値
Contingency correlation 連関係数
【順序尺度に対して】
Median 中央値
Percentiles パーセンタイル
【間隔尺度に対して】
Mean 平均値
Standard deviation 標準偏差
Rank-order correlation 順位相関係数
Product-moment correlation 積率相関係数(いわゆる相関係数のこと)
【比例尺度に対して】
Coefficient of variation 変動係数
4つの尺度は、名義<順序<間隔<比例という上下関係があり、上位の尺度は下位の尺度の統計量を用いることができます。したがって、比例尺度の変数には中央値や平均値を用いることができますが、間隔尺度の変数で変動係数を求めても意味がありません。なお、現在では順序尺度に対しても順位相関係数を使うことがあります。
さて、変数について、もう少し大まかな分け方もあります。1つは、離散変数(discrete variable)と連続変数(continuous variable)という分け方で、名義尺度と順序尺度は離散変数に属し、間隔尺度と比例尺度は連続変数に属します。離散変数についてはカテゴリー変数(categorical variable、カテゴリカル変数とも)という呼び方もあります。
もう1つの分け方は、質的(qualitative)、量的(quantitative)という分け方です。質的は名義尺度に対して用いられます。順序尺度はグレーゾーンにあって質的にも量的にも扱われることがあります。
統計解析の手法は、目的変数や説明変数の尺度に対応して異なります。分散分析では、説明変数に質的変数を用いるとき因子(factor)と呼び、量的変数を用いるときには共変量(covariable)と呼びます。、共分散分析の「共」は共変量に由来します。
本によって変数のところが変量であったり、データであったりするのは 、「変量と変数」の記事に書いたとおりです。