勉強し続けたいと思います。

田舎でずっと勉強している人の学んだことアウトプット用ブログ

連続確率変数と確率密度関数

前回の記事では,離散確率変数と確率質量関数のことをお話した.

今回は,離散のそれに対応して,連続確率変数と確率密度関数の話をしようと思う.

連続確率変数が1点の値をとる確率

前回の記事で,個体差のある長さや重さは全て連続確率変数であることに触れた.そこでいま,連続確率変数$X$を,ランダムに選んだ人の身長とする.さて,$X$がちょうど170cmである確率$\mathrm{P}(X=170)$はいくらになるだろうか?

実際に今日街に出てみて,出会った人全員の身長を測り,170cmだった人の人数を出会ったた総人数で割ればそれらしい値が出るに違いない.コミュニケーションは苦手だが,やってみよう...などと,仮に実行しても,その試みはうまくいかない.(断っておくが決してコミュ障だからうまくいかないのではない.)

なぜなら,厳密に170cmの人を見つけるのは,ほとんど不可能だからである.例えば,メジャーで測ってちょうど170cmに見える人がいたとしよう.しかし,この人の身長をより精密な測定機器を使って厳密に測定したら,170.02cmだった.これは厳密にちょうど170cmであるとは言えない.

「じゃあ,どれくらいの精度ならいいの?」という声が出てきそうだが,どれくらいも何もない.ちょうど170といえば,それは厳密にちょうど170である.170.001でもなく,169.9999でもなく,整数の170なのである.

「いや,そんな無茶苦茶な話にしたら,確率なんてゼロに決まってるでしょう」という声が聞こえてきそうだ.その通り.おそらく,70億人の世界人口のうち,ぴったり厳密に整数値の170cmになる人はいないだろう.もしかしたら奇跡的に,神の気まぐれかなにかで,1人くらいはちょうどぴったり厳密に170cmの身長の人もいるかもしれないが,そのような人の人数は70億の分母に比較すればほとんどゼロと言える少なさであることが予想できる.

そして,かりに1人そのような人がいたとしても,今度は,身長が169.9をとる確率,169.99をとる確率……というふうに確率変数$X$のとる値$x$を少しずつ動かして行けば,どう考えたってほとんどの場合で$\mathrm{P}(X = x)$はゼロだろう.

では,連続確率変数がいかなる値をとる場合も,その確率は正確にゼロなのだろうか?

いや,それは違う.

例えば,身長なら,確かに厳密に170cmの人間は1人いるかいないかだが,誰か1人の身長を測れば,必ず確率変数$X$は何らかの実数値をとるといえる.それは,172.0851463...cmかもしれないし,168.45395005...cmかもしれないが,確実に何らかの値を取るのである.

すなわち,連続確率変数$X$について,それがどんな値をとる場合にも正確にゼロであるとはいえない.連続確率変数$X$は確かに何らかの値をとる.ただし,その実数値をとる確率は非常に小さく,極めてゼロに近い確率であるというだけだ.厳密な議論をすれば,無限小になるらしい.

連続確率変数が区間内の値をとる確率

以上見てきたように,連続確率変数$X$が1点の値$x$をとる確率$\mathrm{P}(X=x)$は,変数$x$の値が何であれ,無限小になる.

どんな値をとっても同じ無限小という確率になるのであれば,連続確率変数$X$について確率$\mathrm{P}(X=x)$を考える意味はない.

では,どのような値だったら意味があるのだろうか?

もう一度,確率変数$X$は,ランダムに選んだ身長の値をとるとする.

さっきはちょうど170cmになる確率を考えたが,こんどは,$X$が170以上175以下になる確率を考えよう.文字を使って表せば,

$$\mathrm{P}(X\in[170,175])$$

というように表す.

この確率だったら,無限小にはなるまい.
実際,ちょっと人の多いところへ出て周りを見渡せば,身長が170cmから175cmの間に入る人はそこそこ目に入るだろう.あきらかに無限小にはならないだろうことが実感できるのではないだろうか.

以上のことから分かるように,連続確率変数$X$では,$X$が1点の値をとる確率を考えても意味はなく,$X$がある区間$[a,b]$の中の値をとる確率$\mathrm{P}(X\in[a,b])$を考えることが一般的である.

確率密度関数

連続確率変数について,どのような確率を考えれば意味があるかという話をしてきた.
ここからは,離散確率変数における確率質量関数に相当するものを考えていこう.

そこで,すこし回り道になるが,再び連続確率変数$X$が1点の値$x$を取る確率を考える.ただ,今度は前に考えたのよりも抽象的に,文字と式を使って話を進める.

まず,連続確率変数については区間内の値をとる確率を考えるのだったから,区間の確率から話を始めよう.

確率変数$X$が,値$x$以上$x + \delta x$以下の値をとる確率を考える.その確率は,このように書ける.

$$\mathrm{P}(X\in[x, x+\delta x])$$

ここで$\delta x$を無限小に近づければ,$\mathrm{P}(X=x)$に近いものが得られると考える.

$$ \mathrm{P}(X=x)= \lim_{\delta x\to 0}\mathrm{P}(X \in[x,x+\delta x]) $$

左辺を変形すると,

$$ \eqalign{ \mathrm{P}(X=x) & = \lim_{\delta x \to 0}\left(\mathrm{P}(X\in(-\infty,x+\delta x])-\mathrm{P}(X\in(-\infty,x])\right) \cr &=\lim_{\delta x \to 0}\left(\mathrm{P}(X\leq x+\delta x)-\mathrm{P}(X\leq x)\right) }\tag{1}$$

ここで,$\mathrm{P}(X\in(-\infty, x])$は,「確率変数$X$が$x$以下の値を取る確率」のことである.少々読みづらいので,$\mathrm{P}(X \leq x)$と書きかえた.

さて,この$\mathrm{P}(X\leq x)$という確率は,変数$x$の値を決めてやればただ一つの値に決まると予想できる.すなわち,$\mathrm{P}(X\leq x)$は変数$x$についての関数だと考えられる.そこで,$\mathrm{P}(X\leq x) = F(x)$と書き直すと,式(1)は,

$$ \begin{align} \mathrm{P}(X=x)&= \lim_{\delta x\to 0}\left( F(x + \delta x) - F(x) \right)\cr &=F'(x)dx\cr &=f(x)dx \end{align}\tag{2} $$

となる.式(2)における関数$F(x)$の導関数$f(x)$のことを,確率密度関数(probability density function)という.また,確率密度関数積分$F(x)$を積分布関数(cumulative distribution function)という.

積分布関数を微分すると確率密度関数が得られるから,

$$F(x) = \int_{-\infty}^x f(z)dz$$

という関係がある.

また,累積分布関数$F(x)$は確率$\mathrm{P}(X\leq x)$に等しいから,

$$ \begin{align} \mathrm{P}(X\in [a,b]) & = \mathrm{P}(X\leq b) - \mathrm{P}(X\leq a)\cr & =F(b)-F(a)\cr & =\int_a ^ bf(x)dx \end{align} $$

が成り立つ.

確率密度関数の例
0以上10未満の実数を無作為に選ぶことを考えよう.確率変数$X$は0以上10未満のすべての値を同確立で取るものとする.

このとき,例えば$X\leq 3$となる確率は,$3/10$,$4\leq X \leq 6$となる確率は$2/10$となることが予想できる.これを満たすように累積分布関数を定義すると,

$$F(x) = \frac{x}{10}$$

となるので,確率密度関数は,

$$f(x)=F'(x)=\frac{1}{10}$$

となる.

まとめ

  • 連続確率変数の場合,確率変数$X$が,一点の値$x$をとる確率は無限小になる.
  • 連続確率変数$X$については,$\mathrm{P}(X\in[a,b])$のような区間の確率を考えることが一般的である.
  • 変数$x$に対して確率$\mathrm{P}(X\leq x)$を与える関数を,累積分布関数$F(x)$という.
  • 積分布関数$F(x)$の導関数$f(x)$を,確率密度関数という
  • 連続確率変数$X$が1点の値$x$をとる確率$\mathrm{P}(X=x)$は,確率密度関数$f(x)$を用いて,$f(x)dx$と表せる.

次回予告

正直これだけのことにこんなに労力を割くとは思わなかった.このあたりの話は自分で書いてみると案外難しい.

次回は平均と分散について書けたらいいな,という気持ちです.