離散的な確率変数

Prerequisite

前節では確率とか期待値という言葉が出てきたので,そのあたりの数学について軽く触れておこう.
最初にサイコロの例を考えてみる.
サイコロを振ったときには,1から6の目がそれぞれ同じ割合で出る.
「同じ割合で」というのはサイコロを振ることを非常に多くの回数を実施してその結果を眺めると,各目の出た回数が同じくらいであるということを意味する.
サイコロのどれかの目が出るかなどの確率的な結果のそれぞれを一般に事象といい,各事象の起こる割合が同じくらいのとき同様に確からしいという.
全ての事象の集合を標本空間という.
サイコロの標本空間は \Omega={1,\cdots,6}  である.
確率的に標本空間の値をとる変数を確率変数 (stochastic variable) といい,ここでは大文字 A  などと表記する.

標本空間 {a_1,\cdots,\,a_n}  に対する A  のとりうる確率は各事象に 1  以下の正の実数を割り当てる写像として理解する.
標本空間 \Omega  から閉区間 [0,\,1]  への写像を確率分布といい \mathsf{P}(A)  と書く:

また \mathsf{P}(A=a_i)\in [0,\,1]  を確率変数 A  が事象 a_i  となる確率と呼ぶことにすると,定義から

あらゆる事象の起こる確率は 1  であるから,

が成り立つ.
この2つの条件が確率の定義となる.
多くの場合は \mathsf{P}(a_i)  と略記するがこの節では明示的に上の表記を用いることにする.

たとえば A=a_i  または A=a_j  となる確率は

で計算できる(ただし i\neq j  ).
これを拡張して標本空間の部分集合 \Omega'\subset\Omega  のうちのどれかの事象が起こる確率は

となる.

同様に確からしいとき任意の事象 a_i  の起こる確率は,

とかける.
ここで n  は標本空間 \Omega  の事象の総数.
サイコロの例ではサイコロの目を確率変数 A  として任意の目 i  の出る確率は \mathsf{P}(A=i)=1/6  となる.

ではサイコロの目の出る確率が(変形したりしていて)わからない場合,どのように確率 \mathsf{P}  を定めればよいだろうか.
実際にこのサイコロを \mathsf{M}  回振ってみて出た目の(確率変数 A  のとる値の)データを集計する.
このうちサイコロの目 i  が出た回数(事象 a_i  が起きた回数)を \mathsf{m}_i  とすると,

統計的確率という.
試行回数を \mathsf{M}\to\infty  とすれば統計的確率は真の確率 \mathsf{P}  に近づいて厳密に等しくなる(大数の法則).

確率変数が2つ A,\,B  の場合に拡張しよう.
それぞれの標本空間を \Omega_A={a_1,\cdots,a_{n_A}}  \Omega_B={b_1,\cdots,b_{n_B}}  とする.
事象 (a_i,b_j)  が起こる確率は \mathsf{P}(A=a_i,B=b_j)  と表記する.
このとき事象 a_i  が起こる確率は

で求められる.
a_i  は任意なので確率分布の等号として

が成り立つ.
\sum_B  \Omega_B  の事象にわたる和を表す.

A=a_i  とわかっているときに B=b_j  が起こる確率を \mathsf{P}(B=b_j|A=a_i)  とかいて

と分解する.
\mathsf{P}(B=b_j|A=a_i)  条件付き確率 (conditional probability) という.

註)これは統計的確率に直すと解釈しやすい.試行回数 \mathsf{M}  のうち (a_i,b_j)  の回数を \mathsf{m}_{ij}  B  の値によらず a_i  となった回数を \mathsf{m}_i  とすると統計的確率として

なので

これは a_i  が起こったうち b_j  が起こった統計的確率である.

もし条件付き確率 \mathsf{P}(B=b_j|A=a_i)  a_i  によらず \mathsf{P}(B=b_j)  に等しいとき
b_j  A  と独立という.
任意の事象が独立の場合は確率分布の等号として

統計的独立

が成立する.
このとき確率変数 A  B  統計的独立 (statistically independent) という.
たとえばサイコロを2つ用意して同時に振る事象は統計的に独立と言えるだろう.

確率変数の函数 f(A)  を考える.
たとえば f(A)  は事象ごとに一つの実数を対応づけるようなものである.
サイコロの例でいえばサイコロの目 i  やそれに応じた賞金などが考えられる.
函数 f(A)  に対して期待値 (expectation value) \mathsf{E}[f]  を,

期待値

で定義する.
サイコロの目の期待値は \mathsf{E}[i]=\sum_{i=1}^6i\cdot(1/6) =7/2  である.
物理学では期待値はブラケットを用いて \langle f\rangle  と書くことが多い.

定義から明らかに期待値の計算は線型である:2つの函数 f,\,g  と実数 \alpha,\,\beta  に対し

確率変数が位置や運動量のような実数値をとる場合に f(A)=A  とすると

を確率分布 \mathsf{P}(A)  平均 (average) という.

\mathsf{M}  個のデータから統計的確率を用いて期待値は

と計算される.
大数の法則によれば \mathsf{M}\to\infty  \mathsf{E}_{\mathrm{st}}[f]  が真の期待値 \mathsf{E}[f]  からずれる確率は 0  に収束する.

期待値からのずれの2乗の期待値

分散

を確率分布 \mathsf{P}(A)  分散 (variance) という.
分散は確率分布が平均値のからどれくらいばらついているかの指標となる.
期待値の線型性により

と展開される.
実際の分散の計算にはこちらをよく使う.
特に f(A)=A  のときは

物理学では分散の平方根をとったゆらぎ (fluctuation) という量をよく用いる.
確率変数 A  のゆらぎは \varDelta A:=\sqrt{\sigma}  などと表記する.

多変数 A_1,\cdots,\,A_N  の場合には分散を拡張して

という量を定義できる.
ここで \mu_i:=\mathsf{E}[A_i]  は平均.
これは共分散 (covariance) ,または物理では相関函数 (correlation function) という.
i=j  のとき共分散は分散に一致する.
相関函数(または相関長)は相転移現象における秩序相の大きさの指標となる重要な物理量である.

Problems

\textsc{Problem1.}

二値分布: 標本空間が2元のみ {a,\,b} の場合の確率変数 A の確率分布,平均,分散を p:=\mathsf{P}(A=a) を用いて表せ.

\textsc{Solution.}

まず確率の定義から \mathsf{P}(A=a)+\mathsf{P}(A=b)=1  なので確率分布は

となる.
次に平均と分散は定義に従って,

コメントを残す