離散的な確率変数

Prerequisite

統計力学の導入

前節では確率とか期待値という言葉が出てきたので，そのあたりの数学について軽く触れておこう．
最初にサイコロの例を考えてみる．
サイコロを振ったときには，1から6の目がそれぞれ同じ割合で出る．
「同じ割合で」というのはサイコロを振ることを非常に多くの回数を実施してその結果を眺めると，各目の出た回数が同じくらいであるということを意味する．
サイコロのどれかの目が出るかなどの確率的な結果のそれぞれを一般に事象といい，各事象の起こる割合が同じくらいのとき同様に確からしいという．
全ての事象の集合を標本空間という．
サイコロの標本空間は $\Omega={1,\cdots,6}$ である．
確率的に標本空間の値をとる変数を確率変数 (stochastic variable) といい，ここでは大文字 $A$ などと表記する．

標本空間 ${a_1,\cdots,\,a_n}$ に対する $A$ のとりうる確率は各事象に $1$ 以下の正の実数を割り当てる写像として理解する．
標本空間 $\Omega$ から閉区間 $[0,\,1]$ への写像を確率分布といい $\mathsf{P}(A)$ と書く：

また $\mathsf{P}(A=a_i)\in [0,\,1]$ を確率変数 $A$ が事象 $a_i$ となる確率と呼ぶことにすると，定義から

あらゆる事象の起こる確率は $1$ であるから，

が成り立つ．
この2つの条件が確率の定義となる．
多くの場合は $\mathsf{P}(a_i)$ と略記するがこの節では明示的に上の表記を用いることにする．

たとえば $A=a_i$ または $A=a_j$ となる確率は

で計算できる（ただし $i\neq j$ ）．
これを拡張して標本空間の部分集合 $\Omega'\subset\Omega$ のうちのどれかの事象が起こる確率は

となる．

同様に確からしいとき任意の事象 $a_i$ の起こる確率は，

とかける．
ここで $n$ は標本空間 $\Omega$ の事象の総数．
サイコロの例ではサイコロの目を確率変数 $A$ として任意の目 $i$ の出る確率は $\mathsf{P}(A=i)=1/6$ となる．

ではサイコロの目の出る確率が（変形したりしていて）わからない場合，どのように確率 $\mathsf{P}$ を定めればよいだろうか．
実際にこのサイコロを $\mathsf{M}$ 回振ってみて出た目の（確率変数 $A$ のとる値の）データを集計する．
このうちサイコロの目 $i$ が出た回数（事象 $a_i$ が起きた回数）を $\mathsf{m}_i$ とすると，

を統計的確率という．
試行回数を $\mathsf{M}\to\infty$ とすれば統計的確率は真の確率 $\mathsf{P}$ に近づいて厳密に等しくなる（大数の法則）．

確率変数が2つ $A,\,B$ の場合に拡張しよう．
それぞれの標本空間を $\Omega_A={a_1,\cdots,a_{n_A}}$ ， $\Omega_B={b_1,\cdots,b_{n_B}}$ とする．
事象 $(a_i,b_j)$ が起こる確率は $\mathsf{P}(A=a_i,B=b_j)$ と表記する．
このとき事象 $a_i$ が起こる確率は

で求められる．
$a_i$ は任意なので確率分布の等号として

が成り立つ．
$\sum_B$ は $\Omega_B$ の事象にわたる和を表す．

$A=a_i$ とわかっているときに $B=b_j$ が起こる確率を $\mathsf{P}(B=b_j|A=a_i)$ とかいて

と分解する．
$\mathsf{P}(B=b_j|A=a_i)$ は条件付き確率 (conditional probability) という．

註）これは統計的確率に直すと解釈しやすい．試行回数 $\mathsf{M}$ のうち $(a_i,b_j)$ の回数を $\mathsf{m}_{ij}$ ， $B$ の値によらず $a_i$ となった回数を $\mathsf{m}_i$ とすると統計的確率として

なので

これは $a_i$ が起こったうち $b_j$ が起こった統計的確率である．

もし条件付き確率 $\mathsf{P}(B=b_j|A=a_i)$ が $a_i$ によらず $\mathsf{P}(B=b_j)$ に等しいとき
$b_j$ は $A$ と独立という．
任意の事象が独立の場合は確率分布の等号として

統計的独立

が成立する．
このとき確率変数 $A$ と $B$ は統計的独立 (statistically independent) という．
たとえばサイコロを2つ用意して同時に振る事象は統計的に独立と言えるだろう．

確率変数の函数 $f(A)$ を考える．
たとえば $f(A)$ は事象ごとに一つの実数を対応づけるようなものである．
サイコロの例でいえばサイコロの目 $i$ やそれに応じた賞金などが考えられる．
函数 $f(A)$ に対して期待値 (expectation value) $\mathsf{E}[f]$ を，

期待値

で定義する．
サイコロの目の期待値は $\mathsf{E}[i]=\sum_{i=1}^6i\cdot(1/6) =7/2$ である．
物理学では期待値はブラケットを用いて $\langle f\rangle$ と書くことが多い．

定義から明らかに期待値の計算は線型である：2つの函数 $f,\,g$ と実数 $\alpha,\,\beta$ に対し

確率変数が位置や運動量のような実数値をとる場合に $f(A)=A$ とすると

を確率分布 $\mathsf{P}(A)$ の平均 (average) という．

$\mathsf{M}$ 個のデータから統計的確率を用いて期待値は

と計算される．
大数の法則によれば $\mathsf{M}\to\infty$ で $\mathsf{E}_{\mathrm{st}}[f]$ が真の期待値 $\mathsf{E}[f]$ からずれる確率は $0$ に収束する．

期待値からのずれの2乗の期待値

分散

を確率分布 $\mathsf{P}(A)$ の分散 (variance) という．
分散は確率分布が平均値のからどれくらいばらついているかの指標となる．
期待値の線型性により

と展開される．
実際の分散の計算にはこちらをよく使う．
特に $f(A)=A$ のときは

物理学では分散の平方根をとったゆらぎ (fluctuation) という量をよく用いる．
確率変数 $A$ のゆらぎは $\varDelta A:=\sqrt{\sigma}$ などと表記する．

多変数 $A_1,\cdots,\,A_N$ の場合には分散を拡張して

という量を定義できる．
ここで $\mu_i:=\mathsf{E}[A_i]$ は平均．
これは共分散 (covariance) ，または物理では相関函数 (correlation function) という．
$i=j$ のとき共分散は分散に一致する．
相関函数（または相関長）は相転移現象における秩序相の大きさの指標となる重要な物理量である．