確率論の初歩 - 勉強し続けたいと思います。

仕事で統計を使うので，いろいろと調べていたら，基本的なところの理解がおぼつかなくなってしまった．そこで，確率論のいっちばんはじめのところから自分なりに整理してみようと思う.

この記事に書いてあること

確率を伴う変数を確率変数という．
確率変数が離散的な値をとるときは離散確率変数，連続的な値をとるときは連続確率変数という．
確率変数が値 $x$ をとる確率を $\mathrm{P}(X=x)$ と書く．
確率質量関数 $p(x)$ とは，変数 $x$ に対して確率 $\mathrm{P}(X=x)$ を与える関数である．
たいていの場合，確率質量関数 $p(x)$ を，確率 $P(X=x)$ の略記と考えて構わない．

確率変数

ふつうの変数,例えば二次関数 $y = x^ 2$ の変数 $x$ なんかは， $x$ の値が1になろうが2になろうが,そこに確率という概念は関わってこない． $x$ は二次関数の定義域の中ならどんな値だって取りえて,そこに定義域以外の制限は存在しない．

しかし，「サイコロを一回投げたときに出た目の値を $X$ とおく」と言ったときの変数 $X$ には上の変数 $x$ にはない制限がある.

もちろん，サイコロは $\{1,2,3,4,5,6\}$ のいずれかの値しかとらないという制限はある．しかし，これは上の「ふつうの変数 $x$ 」にもかかるのと同じ種類の制限，すなわち定義域が $\{1,2,3,4,5,6\}$ であるということに過ぎない.

二次関数 $y=x^ 2$ の変数 $x$ には無くてサイコロの目を表す変数 $X$ にはある制限とは，確率だ． $X$ はサイコロの目の変数である以上，1から6の値をそれぞれ1/6の確率で取るという，いわば「値の取りやすさという情報をもった変数」なのだ．このような変数を,確率変数という.

確率変数の例
例えば,ボウリングで倒したピンの数なんかも確率変数になる．(ひょっとしたらボウリングの達人の場合は，確率など関係なく，0から10の好きな値にすることが可能なのかもしれないが，僕の場合は4とか5あたりが取りやすい値で,10になることはほとんどない.)

離散確率変数と連続確率変数

サイコロの目やボウリングの倒れたピンの数のような，離散的な値しかとらない確率変数のことを離散確率変数という．一方，連続的な値をとる確率変数を連続確率変数という．

連続確率変数の例
例えば,米びつから米粒を一粒だけ取り出すことを考えてほしい．重さは連続的な値をとるし，米粒の重さには確率的なばらつきがあるはずだから，このとき取り出した米粒の重さは連続確率変数だ.他にも,電車でたまたま隣に座った人の身長なんかもそうだ．個体差のある長さや重さというのはたいてい連続確率変数になる.

確率変数を使った確率の書き方

ここは確率論の混乱ポイントの一つだと思うので，しっかり整理しておきたい．

まず，さっきまで何の断りもなくやっていたことだが，確率変数は大文字の $X$ ， $Y$ ， $Z$ を使うことが多い. あらためて言っておこう．

以下，サイコロを一つだけ投げた時に出た目を表す確率変数を $X$ としよう.
このとき，「サイコロの目が1になる確率は1/6．」という見慣れた表現は，下のように書く．

$\displaystyle{ \mathrm{P}(X = 1) = \frac{1}{6}}$

この表記法の，私なりの解釈を，少々くどいくらいかもしれないが述べておく．
まず， $\mathrm{P}(\text{ほげほげ})$ が「ほげほげの確率」というニュアンスだ．そして，「サイコロの目が1」というのは，「サイコロの目を表す確率変数 $X$ の値が1」ということだ．従って，「サイコロの目が1になる確率」は「 $X=1$ になる確率」つまり，「 $\mathrm{P}(X=1)$ 」という風に書き表せるわけだ．

確率変数を使った確率の表記の例
コインを投げて表が出たときに確率変数 $Y$ は1，裏が出たときに0をとるとしよう．このとき，「コインの表と裏が出る確率はどちらも1/2である．」という表現は，

$\displaystyle{ \mathrm{P}(Y=1)=\mathrm{P}(Y=0)=\frac{1}{2} }$

と書ける．

どんどん練習しよう．

「サイコロの目が1になる確率は1/6」 → $\mathrm{P}(X=1)=1/6$
「サイコロの目が2になる確率は1/6」 → $\mathrm{P}(X=2)=1/6$
「サイコロの目が3になる確率は1/6」 → $\mathrm{P}(X=3)=1/6$
「サイコロの目が4になる確率は1/6」 → $\mathrm{P}(X=4)=1/6$
「サイコロの目が5になる確率は1/6」 → $\mathrm{P}(X=5)=1/6$
「サイコロの目が6になる確率は1/6」 → $\mathrm{P}(X=6)=1/6$

目が痛い．こういう繰り返しを避けるためにも，一般化したい．
ふつう，物事を一般化するときには変数を使う．

$\displaystyle{\mathrm{P}(X=x)= \begin{cases} \frac{1}{6} & x=1,2,3,4,5,6\\ 0 & \text{それ以外} \end{cases}}$

ここで注意したいのが，変数 $x$ の使われ方だ．
確率変数 $X$ と違って，小文字の変数 $x$ は確率を伴わない普通の変数だ．確率変数と違って，ふつうの変数の場合は小文字で書かれることが多い．
この辺を明示的に書かない入門書が多いので，混乱しやすい．

確率変数と変数を混ぜた表記の例
さっきのコインの例だと，

$\displaystyle{\mathrm{P}(Y = y) = \begin{cases} \frac{1}{2} & y=1,2\\ 0 & \text{それ以外} \end{cases}}$

ここでも $Y$ は確率変数， $y$ は確率の伴わない普通の変数であることに注意したい．

確率関数

サイコロを6回投げたときに，1の目が2回出る確率を考えよう．
確率変数 $X$ を1の目が出る回数とおけば，この確率は懐かしの高校数学の知識を使って，

$\begin{aligned} \mathrm{P}(X=2)&={}_6\mathrm{C}_2\left(\frac{1}{6}\right)^2\left(1-\frac{1}{6}\right)^{6-2}\\ &={}_6\mathrm{C}_2\frac{5^4}{6^6}\\ &\fallingdotseq0.2 \end{aligned}$

と具体的に求められる．

これを一般化して，1の目が $x$ 回だけ出る確率は，

$\displaystyle{\mathrm{P}(X=x)=\begin{cases} {}_6\mathrm{C}_x\left(\frac{1}{6}\right)^x\left(1-\frac{1}{6}\right)^{6-x}&x=1,2,...,6\text{のとき}\\ 0&\text{それ以外} \end{cases}}$

というふうに表せる．
くどいようだが，この $x$ は確率変数ではなく，普通の変数だ．

ここで，変数 $x$ の値を一つ決めたら，それに対して，上の式を介して確率 $\mathrm{P}(X=x)$ が定まるということに注目してほしい．

変数に対して値が一つ定まる...つまりこれは関数になっているということに他ならない．

そこで上の式を関数っぽく

$\displaystyle{p(x) = {}_6\mathrm{C}_x\left(\frac{1}{6}\right)^x\left(1-\frac{1}{6}\right)^{6-x}}$

と書こう．

このように確率変数 $X$ のとる値 $x$ に対して確率 $\mathrm{P}(X=x)$ を与える関数 $p(x)$ を，確率質量関数(probability mass function)という．

確率質量関数の例
サイコロを何回か投げたときに， $x-1$ 回目までは1以外の目が出続けて， $x$ 回目で初めて1が出る確率 $\mathrm{P}(X=x)$ は，

$\displaystyle{\mathrm{P}(X=x)=\frac{1}{6}\left(1-\frac{1}{6}\right)^{x-1}}$

である．
したがって，確率変数 $X$ のとる値 $x$ に対して確率 $\mathrm{P}(X=x)$ を与える確率質量関数は，

$\displaystyle{ p(x)= \frac{1}{6}\left(1-\frac{1}{6}\right)^{x-1}}$

である．

離散確率変数 $X$ について考えるとき，確率 $\mathrm{P}(X=x)$ と確率質量関数 $p(x)$ が異なることはないので， $p(x)$ を $\mathrm{P}(X=x)$ の略記だと説明する人もいる．ここでも，わかりにくければそう考えてもらって構わない．

実際，'Pattern Recognition and Machine Learning'にも，このように書いてある．

Thus the probability that $B$ takes the value $r$ is denoted $p(B=r)$ . Although this helps to avoid ambiguity, it leads to a rather cumbersome notation, and in many cases there will be no need for such pedantry. Instead, we may simply write $p(B)$ to denote a distribution over the random variable $B$ , or $p(r)$ to denote the distribution evaluated for the particular value $r$ , provided that the interpretation is clear from the context.

従って， $B$ が値 $r$ をとる確率は $p(B=r)$ と表される．これは曖昧な表現を避けるのに役立つが，やや煩雑な表記になる．しかも，たいていの場合はそのように学者ぶる必要はない．それよりも，文脈から明らかなときは，単純に $p(B)$ と書いて確率変数 $B$ の分布を表したり， $p(r)$ と書いてその分布がある値 $r$ に評価されたということを示すことにしよう．