- Excelノート
- 統計検定 データサイエンス基礎のための分析ツールの使い方
2-2. 分析ツール 基本統計・相関・ヒストグラム
下記のリンクからそれぞれの解説に飛ぶことができます。
基本統計
次のデータを使って「基本統計」を出力してみます。「基本統計」はデータに関する様々な統計値を一気に出してくれるので、データの特性をざっと把握したい場合にはとても便利です。
分析ツールから「基本統計」を選択し、ウィンドウを次のように設定します。
【オプションの説明】
- 入力範囲:データの範囲
- データ方向:データが縦に並んでいる場合は「列」を、横に並んでいる場合は「行」を選択
- 先頭行をラベルとして使用:入力範囲にラベル(列名)を含む場合はチェックする
- 出力先:指定したセルに結果を出力する場合に使用
- 新規ワークシート:新規ワークシートに結果を出力する場合に使用
- 新規ブック:新規ブックに結果を出力する場合に使用
- 統計情報:統計情報を出力する場合に使用(チェックを入れないと統計情報が全く出力されません)
- 平均の信頼度の出力:平均値の信頼区間を出力する場合に使用
- K番目に大きな値:K番目に大きな値を出力する場合に使用
- K番目に小さな値:K番目に小さな値を出力する場合に使用
すると、結果が表示されます。
【結果の説明(一部抜粋)】
- 標準誤差:各データの不偏分散を用いて算出された誤差
- 標準偏差:各データの不偏分散の平方根
- 分散:各データの不偏分散
- 範囲:各データの最大値から最小値を引いたもの
- 信頼度:信頼区間の幅(平均値からこの値を引いたり、平均値にこの値を足すと信頼区間となる)
相関
次のデータを使って「相関係数」を出力してみます。「相関」は複数のデータの相関関係を行列として算出できます。
分析ツールから「相関」を選択し、ウィンドウを次のように設定します。
【オプションの説明】
- 入力範囲:データの範囲
- データ方向:データが縦に並んでいる場合は「列」を、横に並んでいる場合は「行」を選択
- 先頭行をラベルとして使用:入力範囲にラベル(列名)を含む場合はチェックする
- 出力先:指定したセルに結果を出力する場合に使用
- 新規ワークシート:新規ワークシートに結果を出力する場合に使用
- 新規ブック:新規ブックに結果を出力する場合に使用
すると、結果が表示されます。
例えば、AとBの相関係数は-0.25、BとCの相関係数は0.13と読み取ることができます。
ヒストグラム
次のデータはあるクラスの数学のテストの点数です。このデータを使って、分析ツールの「ヒストグラム」からヒストグラムをを描いてみます。「相関係数」を出力してみます。
ヒストグラムを作るためにはデータ区間を設定する必要があります。ここでは20点刻みの区間とし、「50、60、70、80、90、100」と書いたセルを準備しておきます。
分析ツールから「ヒストグラム」を選択し、ウィンドウを次のように設定します。
【オプションの説明】
- 入力範囲:データの範囲
- データ方向:データが縦に並んでいる場合は「列」を、横に並んでいる場合は「行」を選択
- 先頭行をラベルとして使用:入力範囲にラベル(列名)を含む場合はチェックする
- 出力先:指定したセルに結果を出力する場合に使用
- 新規ワークシート:新規ワークシートに結果を出力する場合に使用
- 新規ブック:新規ブックに結果を出力する場合に使用
- パレート図:パレート図を出力する場合に使用
- 累積度数分布の表示:累積度数分布を出力する場合に使用
- グラフ作成:ヒストグラムを出力する場合に使用(チェックを入れないとヒストグラムが出力されません)
すると、結果が表示されます。データ区間「50」は50以下の度数を、「60」は51以上60以下の度数を示します。
ヒストグラムには「次の級」の度数も入ってしまっているので、これを削除します。
ヒストグラムの棒を右クリックして「データ系列の書式設定」から「要素の間隔」を0%にすると、よりヒストグラムらしくなります。
データ区間名を修正するとヒストグラムが見やすくなります。
統計検定 データサイエンス基礎のための分析ツールの使い方
- 2-1. 分析ツール t検定・z検定
- 2-2. 分析ツール 基本統計・相関・ヒストグラム
- 2-3. 分析ツール 回帰分析
- 2-4. 分析ツール 分散分析:一元配置、二元配置
- 2-5. 分析ツール 乱数発生・順位と百分位数・サンプリング