Step1. 基礎編
15. いろいろな確率分布3

15-5. 2変数の確率分布

確率変数がとる値とその値をとる確率の対応を表したものが「確率分布」であることは11-1章で既に学びました。この章では、確率変数が2つある場合に、それぞれの確率変数がとる値とその確率の分布を表す「同時確率分布」について学びます。確率変数が離散型である場合には「離散型同時確率分布」といい、確率変数が連続型である場合には「連続型同時確率分布」といいます。

■離散型同時確率分布

あるクラスの生徒40人の血液型を集計した次のようなデータについて考えます。

	A型	O型	B型	AB型	計
男子	10	4	4	2	20
女子	8	8	2	2	20

上の表をそれぞれ割合（確率）に書き換えてみます。例えば、男子でA型の生徒の確率は10/40=0.25になります。

	A型	O型	B型	AB型
男子	0.25	0.1	0.1	0.05
女子	0.2	0.2	0.05	0.05

このように2つの離散型確率変数 $X$ と $Y$ がそれぞれある値をとるときの確率を表したものを「同時確率分布」といいます。 $X$ が $x_i$ を、 $Y$ が $y_j$ をとるときの同時確率分布は

$\displaystyle f(x_i, y_j)=P(X=x_i, Y=y_j)~~~~~(i=1, 2, \cdots ; j=1, 2, \cdots)$

と表します。また、 $f(x_i, y_j)$ を「同時確率関数」といいます。確率の総和は必ず1になるので、同時確率分布に関して次の式が成り立ちます。

$\displaystyle \sum_i \sum_j {f(x_i, y_j)}=1$

次に、それぞれの確率変数をとる確率の合計を算出してみます。

	A型	O型	B型	AB型	計
男子	0.25	0.1	0.1	0.05	0.5
女子	0.2	0.2	0.05	0.05	0.5
計	0.45	0.3	0.15	0.1	1

この表を見ると、A型の合計確率は0.45、O型の合計確率は0.3であることが分ります。このように、ある1つの確率変数を抜き出して（それ以外の確率変数は無視して）、その確率の総和を求めたものを「周辺確率分布」といいます。 $X$ が $x_i$ を、 $Y$ が $y_j$ をとるときの周辺確率分布は、

$\displaystyle f_x(x_i)=\sum_j{f(x_i, y_j)}=P(X=x_i)~~~~~(i=1, 2, \cdots)$

$\displaystyle f_y(y_j)=\sum_i{f(x_i, y_j)}=P(X=y_j)~~~~~(j=1, 2, \cdots)$

と表します。 $f_x(x_i)$ と $f_y(y_j)$ をそれぞれ $X$ と $Y$ の「周辺確率関数」といいます。

■連続型同時確率分布

$X$ と $Y$ がそれぞれ連続型確率変数である場合、 $X$ と $Y$ の同時確率分布を表す関数を「同時確率密度関数」といい、 $f(x,y)$ で表します。同時確率密度関数を使うと、 $a \leq X \leq b, c \leq Y \leq d$ となる確率 $P(a \leq X \leq b, c \leq Y \leq d)$ を求めることができます。

$\displaystyle P(a \leq X \leq b, c \leq Y \leq d)=\int_a^b \int_c^d {f(x,y)dxdy}$

確率の総和は必ず1になるので、同時確率密度関数に関して次の式が成り立ちます。

$\displaystyle \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}{f(x,y)dxdy}=1$

また、 $X$ と $Y$ それぞれの「周辺確率密度関数」である $f_x(x)$ と $f_y(y)$ は次の式から求められます。

$\displaystyle f_x(x)=\int_{-\infty}^{\infty}{f(x,y)dy}$

$\displaystyle f_y(y)=\int_{-\infty}^{\infty}{f(x,y)dx}$

例えば、次のような同時確率密度関数について考えてみます。

$\displaystyle f(x,y) = \begin{cases} x+y~~~~~(0 \leq x \leq 1, 0 \leq y \leq 1) \\ 0~~~~~(other) \end{cases}$

この式から、 $\displaystyle 0 \leq x \leq \frac{1}{2}, 0 \leq y \leq \frac{1}{2}$ となる確率を求めると次のようになります。

$\begin{eqnarray*} \displaystyle　P(0 \leq x \leq \frac{1}{2}, 0 \leq y \leq \frac{1}{2}) &=&\int_0^\frac{1}{2} \int_0^\frac{1}{2} {(x+y)dxdy} \\ &=&\int_0^\frac{1}{2}{\left[\frac{1}{2}x^2+yx\right]_0^\frac{1}{2}dy}\\ &=&\int_0^\frac{1}{2}{\left(\frac{1}{8}+\frac{1}{2}y\right)dy}\\ &=&\left[\frac{1}{8}y+\frac{1}{4}y^2\right]_0^\frac{1}{2}\\ &=&\frac{1}{16}+\frac{1}{16}=\frac{1}{8} \end{eqnarray*}$

$X$ の周辺確率密度関数を求めてみます。 $0 \leq y \leq 1$ の範囲では、

$\begin{eqnarray*} \displaystyle f_x(x) &=&\int_{0}^{1} {f(x,y)dy} \\ &=&\int_{0}^{1} {(x+y)dy} \\ &=&\left[xy+\frac{1}{2}y^2 \right]_0^1 \\ &=&x+\frac{1}{2} \\ \end{eqnarray*}$