主成分分析

多数の変数の持つ変動をなるべく少ない合成変数に要約する分析手法のこと。1933年頃にホテリング(Hotelling)によって提案された。観測変数が原因系となり、その結果系として合成変数が得られる。このとき、合成変数のことを主成分という。

もとのp個の観測変数xに重み\omega(主成分負荷量)をかけて合成したとき、第i番目の主成分z_iは、下式で表すことができる

 z = \omega_1x_1 + \omega_2x_2 + \cdots + \omega_px_p

各主成分z_iにおけるp個の\omega_{ji} (j:1, 2, …p)の2乗和は1であり、この条件のもとで分散が最大になる主成分を第1主成分(z_1)という。

次に第1主成分とは相関しない条件のもとで、分散が最大になるものを第2主成分(z_2)という。同様にして第i主成分(z_i)を求めることができる。第i主成分z_iの分散は、観測変数から得られた分散共分散行列の固有方程式を満たす固有値と等しい。

また、\omegaは固有値に対する固有ベクトルとして算出される\omega_{ji}の絶対値が大きいとき、観測変数x_jは主成分z_iへの貢献度が高いことを示す。すなわち、その主成分をより特徴づける変数であると言える。

LaTex ソースコード

LaTexをハイライトする

主成分負荷量

主成分得点と観測変数との相関係数のこと。主成分負荷量が大きいほど、その主成分は変数と強く相関しているということを表し、主成分をよく説明する変数であるといえる。主成分負荷量は-1から1までの値をとる。

i主成分z_iの主成分負荷量は、固有ベクトルにz_iの分散(固有値)の正の平方根をかけることで求めることができる。

主成分得点

主成分分析で得られた主成分z_iに各個体の実際のデータを代入して求めた第i主成分の数値のことを第i主成分得点(主成分スコア)と言う。データが各主成分の軸上でとる値のこと。

複数の変数を合成した値であり、この値の大小から各個体の第i主成分における傾向や関係を把握することができる。

自由度

ある変数において自由な値をとることのできるデータの数。例えば、n個のデータx_1,x_2,\cdots,x_nがあるとき、これらはどれも自由な値を取りうるので自由度はnである。

ここでもし平均値\overline{x}=aであるとき、平均値が変わらないようにするためにはn-1個のx_iは自由な値を取りうるが、n個目のx_nは自由な値を取ることはできない。このとき自由度はn-1となる。一般にn個のデータの間でk個の条件があるとき、自由度はn-kとなる。

集団面接法

調査条件を満たす5~10人程度の対象者を会場に集め、司会者(モデレーター)の進行のもと、様々な話題について意見交換してもらう座談会形式の定性調査。

対象者同士の意見交換によって、より深く、より広く情報が得られることや、想定外の新しい意見が得られることなどが期待される。グループインタビューとも言う。

重相関係数

複数の変数を直線の式で表して線形結合した値と他のある変数の値との相関係数のこと。

重回帰分析の場合、目的変数の理論値と実測値との間の相関係数であり、決定係数は重相関係数の2乗である。0から1の間の値を取り、1に近いほど分析の精度は高いと言える。