BellCurve 統計WEB

未経験からデータ分析が学べる
未経験からデータ分析が学べる
  • Step1. 基礎編
  • 15. いろいろな確率分布3

15-5. 2変数の確率分布


確率変数がとる値とその値をとる確率の対応を表したものが「確率分布」であることは11-1章で既に学びました。この章では、確率変数が2つある場合に、それぞれの確率変数がとる値とその確率の分布を表す「同時確率分布」について学びます。確率変数が離散型である場合には「離散型同時確率分布」といい、確率変数が連続型である場合には「連続型同時確率分布」といいます。

■離散型同時確率分布

あるクラスの生徒40人の血液型を集計した次のようなデータについて考えます。

A型O型B型AB型
男子1044220
女子882220

上の表をそれぞれ割合(確率)に書き換えてみます。例えば、男子でA型の生徒の確率は10/40=0.25になります。

A型O型B型AB型
男子0.250.10.10.05
女子0.20.20.050.05

このように2つの離散型確率変数XYがそれぞれある値をとるときの確率を表したものを「同時確率分布」といいます。Xx_iを、Yy_jをとるときの同時確率分布は

 \displaystyle f(x_i, y_j)=P(X=x_i, Y=y_j)~~~~~(i=1, 2, \cdots ; j=1, 2, \cdots)

と表します。また、f(x_i, y_j)を「同時確率関数」といいます。確率の総和は必ず1になるので、同時確率分布に関して次の式が成り立ちます。

 \displaystyle \sum_i \sum_j {f(x_i, y_j)}=1

次に、それぞれの確率変数をとる確率の合計を算出してみます。

A型O型B型AB型
男子0.250.10.10.050.5
女子0.20.20.050.050.5
0.450.30.150.11

この表を見ると、A型の合計確率は0.45、O型の合計確率は0.3であることが分ります。このように、ある1つの確率変数を抜き出して(それ以外の確率変数は無視して)、その確率の総和を求めたものを「周辺確率分布」といいます。Xx_iを、Yy_jをとるときの周辺確率分布は、

 \displaystyle f_x(x_i)=\sum_j{f(x_i, y_j)}=P(X=x_i)~~~~~(i=1, 2, \cdots)
 \displaystyle f_y(y_j)=\sum_i{f(x_i, y_j)}=P(X=y_j)~~~~~(j=1, 2, \cdots)

と表します。f_x(x_i)f_y(y_j)をそれぞれXYの「周辺確率関数」といいます。

■連続型同時確率分布

XYがそれぞれ連続型確率変数である場合、XYの同時確率分布を表す関数を「同時確率密度関数」といい、f(x,y)で表します。同時確率密度関数を使うと、a \leq X \leq b, c \leq Y \leq dとなる確率P(a \leq X \leq b, c \leq Y \leq d)を求めることができます。

 \displaystyle P(a \leq X \leq b, c \leq Y \leq d)=\int_a^b \int_c^d {f(x,y)dxdy}

確率の総和は必ず1になるので、同時確率密度関数に関して次の式が成り立ちます。

 \displaystyle \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}{f(x,y)dxdy}=1

また、XYそれぞれの「周辺確率密度関数」であるf_x(x)f_y(y)は次の式から求められます。

 \displaystyle f_x(x)=\int_{-\infty}^{\infty}{f(x,y)dy}
 \displaystyle f_y(y)=\int_{-\infty}^{\infty}{f(x,y)dx}

例えば、次のような同時確率密度関数について考えてみます。

 \displaystyle f(x,y) =  \begin{cases} x+y~~~~~(0 \leq x \leq 1, 0 \leq y \leq 1) \\    0~~~~~(other) \end{cases}

この式から、\displaystyle 0 \leq x \leq \frac{1}{2}, 0 \leq y \leq \frac{1}{2}となる確率を求めると次のようになります。

     \begin{eqnarray*} \displaystyle P(0 \leq x \leq \frac{1}{2}, 0 \leq y \leq \frac{1}{2}) &=&\int_0^\frac{1}{2} \int_0^\frac{1}{2} {(x+y)dxdy} \\ &=&\int_0^\frac{1}{2}{\left[\frac{1}{2}x^2+yx\right]_0^\frac{1}{2}dy}\\ &=&\int_0^\frac{1}{2}{\left(\frac{1}{8}+\frac{1}{2}y\right)dy}\\ &=&\left[\frac{1}{8}y+\frac{1}{4}y^2\right]_0^\frac{1}{2}\\ &=&\frac{1}{16}+\frac{1}{16}=\frac{1}{8} \end{eqnarray*}

Xの周辺確率密度関数を求めてみます。0 \leq y \leq 1の範囲では、

     \begin{eqnarray*} \displaystyle f_x(x)  &=&\int_{0}^{1} {f(x,y)dy} \\ &=&\int_{0}^{1} {(x+y)dy} \\ &=&\left[xy+\frac{1}{2}y^2 \right]_0^1 \\ &=&x+\frac{1}{2} \\ \end{eqnarray*}

と計算できるので、まとめると次のようになります。

 \displaystyle f_x(x)  =  \begin{cases} x+\frac{1}{2}~~~~~(0 \leq x \leq 1) \\    0~~~~~(other) \end{cases}

Yの周辺確率密度関数も同様に計算できます。

 \displaystyle f_y(y)  =  \begin{cases} y+\frac{1}{2}~~~~~(0 \leq y \leq 1) \\    0~~~~~(other) \end{cases}

15. いろいろな確率分布3


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


統計WEBを運営するBellCurveは、統計解析ソフト「エクセル統計」を開発・販売しています! 統計解析ソフト「エクセル統計」をインストール後のExcel上のタブとメニュー エクセル統計ジャケット画像


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)