クラスター分析─エクセル統計による解析事例
2017/04/19
カテゴリ:解析事例
※ このコンテンツは「エクセル統計(BellCurve for Excel)」を用いた解析事例です。
分析データ
下図は、日本の都道府県の人口動態に関するデータです。4つの変数(人口密度(人/km2)、人口増加率(%)、65歳以上人口割合(%)、耕地率(%))を用いてエクセル統計からクラスター分析を行い、各都道府県の関連を見てみます。(出典:総務省統計局「平成22年国勢調査」「都道府県別人口増減率-総人口 」、農林水産省「平成26年耕地面積」)
ダイアログの設定
下図のように表の先頭行「B3:F3」を選択します。メニューより[エクセル統計]→[多変量解析]→[クラスター分析]を選択します。
[変数]タブ
ダイアログが表示される際、セル範囲「B3:F50」が[データ入力範囲]に自動で指定されます。「都道府県」を[データラベル]に、それ以外の4変数「人口密度」、「人口増加率」、「65歳以上人口割合」、「耕地率」を[分析に用いる変数]にセットします。
[クラスタリング手法]タブ
今回は、階層型のクラスタリングを行うため、「階層型ー凝集法」をチェックします。都道府県ごとの分類を行いたいので「データの内容」を[個体分類]とし、「距離計算」の方法として[ユークリッドの距離]、「合併後の距離計算」の方法として[ウォード法]を選択します。「規模・平均値表のクラスター数」には分割したいグループの数を指定します。「4」のままにし、[OK]をクリックします。
出力内容
出力内容の目次がハイパーリンク付きで出力されます。
ケースの要約
「有効ケース」、「不明ケース」、「全体」の件数および割合が出力されます。「有効ケース」が分析対象となります。
基本統計量
各変数の件数、平均、不偏分散、標準偏差、最小値、最大値が出力されます。
相関行列
各変数間の相関係数が行列形式で出力されます。
設定内容
ダイアログで設定したクラスター分析の設定内容が出力されます。
距離行列
各都道府県間のユークリッド距離が行列形式で出力されます。
結合過程
各都道府県の結合過程が出力されます。例えば、ステップ1ではすべての都道府県の組み合わせの中で最も距離の小さい(非類似度が小さい)組み合わせの「7(福島)」と「45(宮崎)」が合併されました。このようにして、すべての都道府県が1つに合併されるまで結合ステップは繰り返されます。合併されたものは、ひとかたまりとして次ステップ以降の距離計算が行われます。
規模・平均値表・クラスター別個体分類
ダイアログで、「規模・平均値表のクラスター数」を「4」としたため、都道府県を4つのクラスターに分けた場合の、各クラスターの規模と平均値が出力されます。
また、各クラスターにどの個体が含まれるかを表したクラスター別個体分類表も出力されます。
樹形図(デンドログラム)
クラスター分析を元にした、樹形図が出力されます。樹形図を見ると、どのような順序でクラスターが形成されたかが分かります。縦の点線が「規模・平均値表のクラスター数」で設定したクラスター数で分ける場合の分割点になります。
今回のデータでは、首都「東京」、比較的大きな都市である「神奈川・大阪」、中核都市である「埼玉・千葉・福岡・愛知」、「それ以外」の4つのクラスターに分けられました。
樹形図用データ
樹形図作成用のデータが出力されます。
ダウンロード
この解析事例のExcel ファイルのダウンロードはこちらから → example_40.xlsx
このファイルは、エクセル統計の体験版に対応しています。
参考書籍
- 河口 至商, "多変量解析入門 (2) (数学ライブラリー (46))", 森北出版株式会社, 1981.
- 木下 栄蔵, "わかりやすい数学モデルによる多変量解析入門(第2版)", 近代科学社, 2009.