BellCurve 統計WEB

ブログ

クラスター分析─エクセル統計による解析事例

2017/04/19

カテゴリ:

※ このコンテンツは「エクセル統計(BellCurve for Excel)」を用いた解析事例です。

分析データ

下図は、日本の都道府県の人口動態に関するデータです。4つの変数(人口密度(人/km2)、人口増加率(%)、65歳以上人口割合(%)、耕地率(%))を用いてエクセル統計からクラスター分析を行い、各都道府県の関連を見てみます。(出典:総務省統計局「平成22年国勢調査」「都道府県別人口増減率-総人口 」、農林水産省「平成26年耕地面積」)

都道府県の人口動態

ダイアログの設定

下図のように表の先頭行「B3:F3」を選択します。メニューより[エクセル統計]→[多変量解析]→[クラスター分析]を選択します。

データ範囲の先頭行を選択

[変数]タブ

ダイアログが表示される際、セル範囲「B3:F50」が[データ入力範囲]に自動で指定されます。「都道府県」を[データラベル]に、それ以外の4変数「人口密度」、「人口増加率」、「65歳以上人口割合」、「耕地率」を[分析に用いる変数]にセットします。

[変数]タブ

[クラスタリング手法]タブ

今回は、階層型のクラスタリングを行うため、「階層型ー凝集法」をチェックします。都道府県ごとの分類を行いたいので「データの内容」を[個体分類]とし、「距離計算」の方法として[ユークリッドの距離]、「合併後の距離計算」の方法として[ウォード法]を選択します。「規模・平均値表のクラスター数」には分割したいグループの数を指定します。「4」のままにし、[OK]をクリックします。

[クラスタリング手法]タブ

出力内容

出力内容の目次がハイパーリンク付きで出力されます。

出力内容

ケースの要約

「有効ケース」、「不明ケース」、「全体」の件数および割合が出力されます。「有効ケース」が分析対象となります。

ケースの要約

基本統計量

各変数の件数、平均、不偏分散、標準偏差、最小値、最大値が出力されます。

基本統計量

相関行列

各変数間の相関係数が行列形式で出力されます。

相関行列

設定内容

ダイアログで設定したクラスター分析の設定内容が出力されます。

設定内容

距離行列

各都道府県間のユークリッド距離が行列形式で出力されます。

距離行列

結合過程

各都道府県の結合過程が出力されます。例えば、ステップ1ではすべての都道府県の組み合わせの中で最も距離の小さい(非類似度が小さい)組み合わせの「7(福島)」と「45(宮崎)」が合併されました。このようにして、すべての都道府県が1つに合併されるまで結合ステップは繰り返されます。合併されたものは、ひとかたまりとして次ステップ以降の距離計算が行われます。

結合過程

規模・平均値表・クラスター別個体分類

ダイアログで、「規模・平均値表のクラスター数」を「4」としたため、都道府県を4つのクラスターに分けた場合の、各クラスターの規模と平均値が出力されます。

規模・平均値表

また、各クラスターにどの個体が含まれるかを表したクラスター別個体分類表も出力されます。

クラスター別個体分類表

樹形図(デンドログラム)

クラスター分析を元にした、樹形図が出力されます。樹形図を見ると、どのような順序でクラスターが形成されたかが分かります。縦の点線が「規模・平均値表のクラスター数」で設定したクラスター数で分ける場合の分割点になります。

今回のデータでは、首都「東京」、比較的大きな都市である「神奈川・大阪」、中核都市である「埼玉・千葉・福岡・愛知」、「それ以外」の4つのクラスターに分けられました。

樹形図(デンドログラム)

樹形図用データ

樹形図作成用のデータが出力されます。

樹形図用データ

ダウンロード

この解析事例のExcel ファイルのダウンロードはこちらから → example_40.xlsx

このファイルは、エクセル統計の体験版に対応しています。

参考書籍

関連リンク