- Excelノート
- 統計検定 データサイエンス基礎のための分析ツールの使い方
2-5. 分析ツール 乱数発生・順位と百分位数・サンプリング
この章では分析ツールの乱数発生・順位と百分位数・サンプリングについて説明します。下記のリンクからそれぞれの解説に飛ぶことができます。
乱数発生
分析ツールを使って、様々な確率分布に従う乱数を発生させることができます。分析ツールから「乱数発生」を選択すると、次のようなウインドウが開きます。
【オプションの説明】
- 変数の数:発生させる乱数の列数
- 乱数の数:発生させる乱数の行数
- 分布:均一、正規、ベルヌーイ、二項、ポワソン、パターン、離散の中から1つ選択する(詳細は後述の表)
- パラメータ:選択した確率分布に合わせて設定する(詳細は後述の表)
- ランダムシード:乱数発生のたびに全く同じ乱数を発生させたい場合には、このランダムシードに適当な値を入力する。例えば、「1」と入力した場合、この「1」を別の数字に変えない限り同じ乱数が発生する。毎回異なる乱数を発生させたい場合には空欄にする。
- 出力先:指定したセルに結果を出力する場合に使用
- 新規ワークシート:新規ワークシートに結果を出力する場合に使用
- 新規ブック:新規ブックに結果を出力する場合に使用
【分布とパラメータについて】
分布 | パラメータ | 説明 |
---|---|---|
均一 | [最小値]から[最大値]まで | [最小値]から[最大値]の間の値をランダムに発生させる |
正規 | [平均]、[標準偏差] | [平均]と[分散]の正規分布に従う値をランダムに発生させる |
ベルヌーイ | [P値] | 成功確率=[P値]のベルヌーイ分布に従う1/0のいずれかの値をランダムに発生させる |
二項 | [P値]、[試行回数] | 成功確率=[P値]、[試行回数]の二項分布に従う成功回数の値をランダムに発生させる |
ポワソン | [λ] | 平均生起回数=[λ]のポアソン分布に従う値をランダムに発生させる |
パターン | [最小値]から[最大値]まで[ステップ] [数値の繰り返し回数] [数列の繰り返し回数] | [最小値]から[最大値]まで[ステップ]ずつ足した値を発生させる 各値を何回出力するか=[数値の繰り返し回数] 何列分出力するか=[数列の繰り返し回数] |
離散 | [値と確率の入力範囲] 出力させる値からなる列と、その値を出力させる確率の列の2列からなるデータを指定 | 出力確率にしたがって、対応する値をランダムに発生させる |
分布とパラメータを設定し、「OK」を押すと乱数が表示されます。
この乱数発生機能を使って、例えばテストの点数の模擬データを作ることができます。ある学校のテストの点数が平均60点、標準偏差が10点の正規分布に従うとき、このテストを受けた学生20人分の点数のデータを作ってみます。まず、次のようなExcelシートを準備します。
分析ツールから「乱数発生」を選択し、ウィンドウを次のように設定します。
出力された乱数には小数点以下の数字が含まれているので、「ROUND」関数を使って整数にします。
オートフィル機能を使って値を埋めてしまえば完成です。
順位と百分位数
「乱数発生」で作成したテストの点数の模擬データを使って、データの順位と百分位数を算出してみます。分析ツールから「順位と百分位数」を選択し、ウィンドウを次のように設定します。
【オプションの説明】
- 入力範囲:データの範囲(データの中に、行ラベルと列ラベルを含める必要がある)
- データ方向:データが縦に並んでいる場合は「列」を、横に並んでいる場合は「行」を選択
- 先頭行をラベルとして使用:入力範囲にラベル(列名)を含む場合はチェックする
- 出力先:指定したセルに結果を出力する場合に使用
- 新規ワークシート:新規ワークシートに結果を出力する場合に使用
- 新規ブック:新規ブックに結果を出力する場合に使用
すると、次のような結果が表示されます。
【結果の説明】
- 番号:元データに上から通し番号をつけたときの番号
- 列1:データを大きい順に並べた結果
- 順位:データを大きい順に並べたときの順位。同じ値のデータは同じ順位となる。
- パーセント:データがその値以下となる確率
サンプリング
「乱数発生」で作成したテストの点数の模擬データを使って、データのサンプリングを行ってみます。
分析ツールから「サンプリング」を選択し、ウィンドウを次のように設定します。
【オプションの説明】
- 入力範囲:データの範囲(データの中に、行ラベルと列ラベルを含める必要がある)
- ラベル:入力範囲にラベル(行名および列名)を含む場合はチェックする
- 周期変化:「周期」に何個おきにデータをサンプリングするか設定する
- ランダム:「データの個数」にいくつのデータをサンプリングするか設定する
- 出力先:指定したセルに結果を出力する場合に使用
- 新規ワークシート:新規ワークシートに結果を出力する場合に使用
- 新規ブック:新規ブックに結果を出力する場合に使用
すると、サンプリングの結果が表示されます。「J列」の「69, 50, 50, 58, 44」がランダムサンプリングによって抽出された5つのデータです。
統計検定 データサイエンス基礎のための分析ツールの使い方
- 2-1. 分析ツール t検定・z検定
- 2-2. 分析ツール 基本統計・相関・ヒストグラム
- 2-3. 分析ツール 回帰分析
- 2-4. 分析ツール 分散分析:一元配置、二元配置
- 2-5. 分析ツール 乱数発生・順位と百分位数・サンプリング