確率変数の収束についてまとめる

はじめに

最近、自然科学の統計学という本を読んで、その内容をまとめた記事を書いたり書かなかったりしている。

kriver-1.hatenablog.com

現在第6回の内容を書いているのだが、その途中で確率収束という単語が出てきた。確率変数の収束についてはいくつか種類があって、確率収束だけでなく弱収束、強収束、概収束、分布収束など、いろいろな収束があることは知っているのだが、それぞれがどういう意味を表しているのか、正直あんまりわかっていない。
せっかくなので、調べてここにまとめてみようと思う。

間違い等を見つけたら積極的にマサカリを投げてほしい。



なお、この記事を書いている2018年5月現在で、この記事には書いてあるがwikipediaや他のブログ記事などを探してもなかなか見つからない内容は以下のとおりである。

  • 分布収束するが確率収束しない例
  • 概収束のお気持ち
  • 確率収束するが概収束しない例
    • 確率収束するが概収束せず、少し変えるだけで概収束するようになる例
  • 概収束するが確実収束しない例

以上を探している人はぜひこの記事を読んでいってほしい。



確率変数の収束の分類

とりあえず、wikipediaに載っているものについてまとめることにする。
以下では、たくさんの確率変数の列 X_n (n=1, 2, \cdots)が、ある確率変数 Xへといろいろな意味で収束していくという状況についてまとめる。また、各変数は実数値を取るものとする。

名前 英語名、別名 書き方
分布収束 分布収束 (convergence in distribution)、弱収束 (weak convergence)、法則収束 (convergence in law)  X_n \xrightarrow{d} X
確率収束 確率収束 (convergence in probability)  X_n \xrightarrow{p} X
概収束 概収束 (almost sure convergence)、強収束 (strong convergence)、ほとんど至る所で収束 (almost everywhere convergence)、確率1で収束 (with probability 1 convergence or w. p. 1 convergence)  X_n \xrightarrow{a.s.} X
確実収束 確実収束 (sure convergence) (なし)
平均収束  r次平均収束 (convergence in the  r-th mean)、 L^r-ノルムについて収束 (convergence in the  L^r-norm)  X_n \xrightarrow{L^r} X


正直
確率変数の収束 - Wikipedia
がかなりわかりやすいので、新たに記事を書くほどのものではないのかもしれないが、自分でまとめると勉強になるし、いろいろな視点から書かれていたほうが初学者の理解も進むかもしれない、ということで、ひとつひとつ説明していこうと思う。


分布収束

定義

確率変数列 X_1, X_2, \cdotsが、ある確率変数 Xへと分布収束するとは、 X_n Xの累積分布関数をそれぞれ F_n Fとしたとき、 F xで連続となるような任意の x \in \mathbb{R}について、
 \displaystyle
\lim_{n\rightarrow \infty} F_n(x) = F(x)
が成り立つことを言う。

お気持ち

確率分布のグラフ自体が収束先のグラフにどんどん近づいていくという様子を考えればよい。
ぴったり完全に一致する日が来るとは言っていないが、分布自体のズレはどんどん小さくなっていく。

wikipediaにあった素晴らしいgif画像を貼っておこう。これは独立な一様確率分布を n個発生させてその平均を取った確率分布なのだが、 nが大きくなるにつれて分布が正規分布っぽい形になっていくことが分かる。

https://upload.wikimedia.org/wikipedia/commons/e/e3/Convergence_in_distribution_%28sum_of_uniform_rvs%29.gif

実際、この分布は中心極限定理によって正規分布へと分布収束することが示される。

ただし、この収束はあくまでも分布のズレしか見ていないことに注意が必要だ。
確率変数の節で後述する通り、確率分布列と収束先の確率分布に怪しげな関係性があった場合、分布は一致しているのに確率変数の値はぜんぜん一致しない、という場合が存在する。このような場合でも、分布収束は(分布しか見ていないので)成り立ってしまう。

中心極限定理

太郎君はコイン投げが得意で、表と裏をちょうど半々の確率で出すことができる。
太郎君がコインを n回投げたとき、表が出る回数を X_nとすると、中心極限定理から X_nの確率分布は X=\mathcal{N}(\mu=\frac{n}{2}, \sigma^2=\frac{n}{4})、すなわち平均 \frac{n}{2}、分散 \frac{n}{4}正規分布に分布収束する。

このことを用いて、例えばイキった次郎君が太郎君に対してケンカを売ってきたとしても、次郎君にコインを 4 \times 10^4回投げさせて、表の出た回数が 2\times 10^4-2 \times 10^2回以下だったり 2\times 10^4+ 2\times 10^2回以上だったりすれば、太郎君は有意水準5%で「君のコイン投げはまだまだだね」とイキリ返すことができる。なぜなら、次郎君のコイン投げが適切なら、こういうことが起こる確率は5%未満であり、したがってよっぽどの奇跡が起こったのでなければ次郎君のコイン投げは適切でなかったということになるからである。
こういう考え方を統計的仮説検定と言うが、それはまた別のお話。

確率収束

定義

確率変数列 X_1, X_2, \cdotsが、ある確率変数 Xへと確率収束するとは、任意の正の実数 \varepsilon>0について、
 \displaystyle
\lim_{n\rightarrow \infty} \text{Pr}\left( \left| X_n - X \right| > \varepsilon \right) = 0
が成り立つことを言う。

お気持ち

確率変数が外れ値をだんだん取らなくなる様子を考えればよい。外れ値かどうかを認識する閾値 \varepsilonである。
値がぴったり完全に一致する日が来るとは言っていないが、値が大きく外れる確率はどんどん小さくなっていくし、「外れ値の出る確率をこのくらいに抑えてほしい」と言われれば「じゃあ n>N_{\varepsilon}にすればいいよ」と言うことができる。

分布収束との関係

  • 確率収束は分布収束よりも強い(厳しい)条件である。すなわち、 X_n Xに確率収束するならば、 X_n Xに分布収束する。
  •  Xが定数なら逆も成り立つ。すなわち、 X_nが定数 X_0しか出ないような確率変数 Xに分布収束するならば、 X_n Xに確率収束する。

大数の弱法則

再び太郎君のコイン投げについて考えよう。
太郎君のコインは正確に二分の一の確率で表が出る。このコインを n回投げたとき、表が出る割合を X_nとしよう。大数の弱法則より、この確率変数列 X_nは定数 X=0.5に確率収束する。
したがって、表が出る割合が例えば0.6以上になる確率は、コインを投げる回数が増えればどんどん0に近づいていく。
また、確率収束は分布収束より強い条件なので、 X_n Xに分布収束もする。

分布収束するが確率収束しない例

太郎君が普通のコインを1回だけ投げる。この試行を Aとし、この試行で表が出たかどうかを表す確率変数を X_Aとしよう。すなわち、試行 Aで投げたコインが表なら X_A=1、裏なら X_A=0とする。
その横で、次郎君がイカサマコインを投げる。もしイカサマコインの裏が出たら、 X_nとして X_Aの結果をそのまま採用する。もしイカサマコインの表が出たら、結果を反転させて X_n=1-X_Aとすることにしよう。
イカサマコインの裏が出る確率は \frac{1}{n}になるように調整されている。なので、このコインの裏が出る確率は nが大きくなるとどんどん0に近づいていく。

イカサマコインの結果がどうだろうと、 X_n=0となる確率は0.5、 X_n=1となる確率も0.5である。したがって、試行 Aとは独立に太郎君がコインを投げたときの分布を Xとすれば、 X_n Xに確率収束する。
ここで、確率変数 X_Aについて考えてみよう。 X_A=0となる確率は0.5、 X_A=1となる確率も0.5であるから、 X_n X_Aに分布収束すると言ってよい。
ところが、 X_n X_Aに確率収束しない。なぜなら、イカサマコインで表が出た場合(これは nが大きくなるほど起こりやすくなる)、 X_nの結果は反転されていて、 X_Aとは逆の結果になっているからである。このとき  \left| X_n - X_A \right| = 2となるから、 \varepsilon<2となるように \varepsilonを取ることによって X_n X_Aに確率収束しないことが示せる。

概収束

定義

確率変数列 X_1, X_2, \cdotsが、ある確率変数 Xへと概収束するとは、
 \displaystyle
 \text{Pr} \left( \left\{ \omega:  \lim_{n\rightarrow \infty} X_n (\omega) = X (\omega) \right\} \right) = 1
が成り立つことを言う。ここで、 \omegaは起こりうる標本の集合 \Omegaの要素である。

お気持ち

確率収束は X_n Xの値がどんどん近づいていくことを主張していたが、概収束は X_nがほとんど各点で Xに収束するということを主張している。
もっと言えば、これは X_n(\omega)\neq X(\omega)となるような n, \omegaがたかだか有限個しか存在しないことを表している。
これまでの収束とは \lim \text{Pr}の位置関係が異なっていることに着目するとわかりやすいかもしれない。

なお、\lim_{n\rightarrow \infty} X_n (\omega) = X (\omega)となる \omegaが出る確率が1であることと、すべての \omega \lim_{n\rightarrow \infty} X_n (\omega) = X (\omega)が成り立つことは同値ではない。なぜなら、数学の世界ではある事象 \omega_0が「確率0で起こる」場合があるからである。具体的な例は次項の「確実収束」の例で述べよう。

確率収束との関係

  • 概収束は確率収束よりも強い(厳しい)条件である。すなわち、 X_n Xに概収束するならば、 X_n Xに確率収束する。
  • 逆が成り立つわけではないが、確率収束するならば、概収束する部分列が存在する。すなわち、 X_n Xに確率収束するならば、 X_nのある部分列 X_{k_n}が存在して、 X_{k_n} Xに概収束する。

大数の強法則

前述した、コイン投げの表が出る割合についてもう一度考えよう。

太郎君のコインは正確に二分の一の確率で表が出る。このコインを n回投げたとき、表が出る割合を X_nとしよう。大数の弱法則より、この確率変数列 X_nは定数 X=0.5に確率収束する。

実は、この例では大数の強法則も成り立つ。すなわち、この確率変数列 X_nは定数 X=0.5に概収束する。

いつか終わるコイン投げ

太郎君は1日1回、日課のコイン投げをする。
ただし、裏が10日連続で出てしまったら、太郎君は自分のコイン投げ力に絶望してコイン投げをやめてしまう。その日からコインはずっと裏のままになる。

確率変数列 X_nを、 n日目にコインが表なら X_n=1、裏なら X_n=0と定めよう。この確率変数は 0に概収束する。なぜなら、十分長い時間が経てばいつかは裏が10連続で出てしまい、それ以降はずっと X_n=0になってしまうからである。

確率収束するが概収束しない例

次郎君のイカサマコインを考えよう。次郎君のイカサマコインは \frac{1}{n}の確率で裏が出る。つまり、 nが大きくなると裏が出る確率はどんどん小さくなっていく。
このイカサマコインを投げて、表が出たとき X_n=1、裏が出たとき X_n=0としよう。裏が出る確率は nが大きくなるにつれてどんどん小さくなっていくから、十分小さい \varepsilonについて、 \text{Pr}\left(\left|X_n-1\right|>\varepsilon\right)=\text{(裏が出る確率)}は0に収束する。すなわち、 X_n 1に確率収束する。

ところが、実は X_n 1に概収束しない。
このことを示すのは少し骨が折れるが、Borel-Cantelliの補題 (英wiki: Borel–Cantelli lemma - Wikipedia )を認めた上で略証を試みよう。

まず、
 \displaystyle 
 \sum_{n=1}^{\infty} \text{Pr}(\left\{\omega: X_n(\omega)=0\right\})=\infty
であることを示す。これは \sum_{n=1}^{\infty} \frac{1}{n}=\inftyであることから簡単にわかる。

 X_nが独立であることとBorel-Cantelliの補題から、 X_n(\omega)=0であるような \omegaは infinitely often に起こる。
すなわち、無限回の試行を行えば、 X_n(\omega)=0であるような n, \omegaの組は(全体に比べれば非常に少ないかもしれないが、それでも)無限個持ってくることができる。

一方、もし X_n 1に概収束すると仮定すると、定義から
 \displaystyle
\begin{eqnarray}
 \text{Pr} \left( \left\{ \omega:  \lim_{n\rightarrow \infty} X_n(\omega) = 1 \right\} \right) = 1
\end{eqnarray}
となるので、集合 \left\{ \omega:  \lim_{n\rightarrow \infty} X_n(\omega) = 1 \right\} Aとすると、 \text{Pr}(\omega\in A)=1となる。

いま、 \omega\in Aを満たすような \omegaを考えよう。この \omegaについては、定義から、任意の \varepsilon>0についてある Nがあって、すべての n>N X_n(\omega)=1が成り立つ。したがって、このような \omegaについては、 X_n(\omega)=0であるような nはたかだか有限個しかない。
また、 \omega\not \in Aについては、 \text{Pr}(\omega\in A)=1より、確率0でしか起こらないことがわかっている。

以上より、 X_n(\omega)=0であるような nが無限個ある確率は0である。
ところが、先ほどBorel-Cantelliの補題を用いて求めたとおり、 X_n(\omega)=0であるような nは無限個存在する。
これは矛盾であるから、 X_n 1に概収束しないことが示された。


なお、以下の例では、設定をほとんど変えていないにも関わらず X_n 1に概収束する。

区間 [0, 1]の一様分布からランダムに1つ値を持ってきて sとする。いま、 X_nを、 0\le s \le \frac{1}{n}のとき X_n=0 \frac{1}{n} < s \le 1のとき X_n=1と定めよう。
このとき、 X_n 1に概収束する。

この2例の差は、各 X_nが独立かどうかという点にある。後者の例では各 X_nは独立でないから、Borel-Cantelliの補題は成り立たない。実際、各 s>0について n>N_s=1/sであれば X_n=1が常に成り立つので、 X_n 1に概収束する。

また、イカサマコインの裏が出る確率を \frac{1}{n}から \frac{1}{n^2}に変更した場合も、 X_n 1に概収束する。これは、 \sum_{n=1}^{\infty} \text{Pr}(\left\{\omega: X_n(\omega)=0\right\})が有限の値になってしまい、Borel-Cantelliの補題が成り立たなくなるためである。

確実収束

定義

確率変数列 X_1, X_2, \cdotsが、ある確率変数 Xへと確実収束するとは、
 \displaystyle
 \forall \omega,  \lim_{n\rightarrow \infty} X_n (\omega) = X (\omega)
が成り立つことを言う。ここで、 \omegaは起こりうる標本の集合 \Omegaの要素である。

お気持ち

言うまでもなく、概収束を確率0で起こる事象にも拡張したものである。
確率の世界で確率0の事象が問題になることはまずないので、概収束じゃダメ、確実収束じゃないと!なんて場面はまず訪れないと思っていい。
なので、確実収束自体の重要度もあまり高くない。

概収束との関係

  • 確実収束は概収束よりも強い(厳しい)条件である。すなわち、 X_n Xに確実収束するならば、 X_n Xに概収束する。

概収束するが確実収束しない例

前述した「設定をちょっと変えるだけで概収束する例」を再掲しよう。

区間 [0, 1]の一様分布からランダムに1つ値を持ってきて sとする。いま、 X_nを、 0\le s \le \frac{1}{n}のとき X_n=0 \frac{1}{n} < s \le 1のとき X_n=1と定めよう。
このとき、 X_n 1に概収束する。

この例では、 X_n 1に概収束するが、 1に確実収束しない。というのも、 s=0の場合(このような事象が起こる確率は0なのだが)、 nがいくら大きかろうと X_n \neq 1となってしまうからである。

平均収束

定義

 1 \le r \in \mathbb{R}について、確率変数列 X_1, X_2, \cdotsがある確率変数 Xへと r次平均収束するとは、( X_n Xに適切なモーメントがちゃんと定義できるとして、)
 \displaystyle
 \lim_{n\rightarrow \infty} \mathbb{E}\left[ \left| X_n - X \right|^r \right] = 0
が成り立つことを言う。

特に、 r=1, 2のとき、すなわち、
 \displaystyle
 \lim_{n\rightarrow \infty} \mathbb{E}\left[ \left| X_n - X \right| \right] = 0
 \displaystyle
 \lim_{n\rightarrow \infty} \mathbb{E}\left[ \left( X_n - X \right)^2 \right] = 0
が成り立つとき、それぞれ X_n Xに平均収束する (converges in mean)、 二乗平均収束する (converges in mean square) という。

お気持ち

 r次平均収束自体がめちゃくちゃ役に立つ、というわけではないと思う。
ただ、 X X_nの平均を表しているときは、 X_n Xに二乗平均収束することと、 X_nの分散が0に収束することが同値になるので、他の収束を示すよりも二乗平均収束を示したほうが楽なことがある。そういうときに便利。

他の収束との関係

  • 任意の r > s \ge 1について、 r次平均収束は s次平均収束よりも強い(厳しい)条件である。すなわち、 X_n X r次平均収束するならば、 X_n X s次平均収束する。
    • 平均収束の次数は自由に減らしていいということ。
    • 特に、 X_n Xに二乗平均収束するならば、 X_n Xに平均収束する。
  • 平均収束は確率収束よりも強い(厳しい)条件である。すなわち、 X_n Xに平均収束するならば、 X_n Xに確率収束する。

 r次平均収束するが概収束しない例

先の例で示した、「確率収束するが概収束しない例」を再掲しよう。

次郎君のイカサマコインを考えよう。次郎君のイカサマコインは \frac{1}{n}の確率で裏が出る。つまり、 nが大きくなると裏が出る確率はどんどん小さくなっていく。
このイカサマコインを投げて、表が出たとき X_n=1、裏が出たとき X_n=0としよう。裏が出る確率は nが大きくなるにつれてどんどん小さくなっていくから、十分小さい \varepsilonについて、 \text{Pr}\left(\left|X_n-1\right|>\varepsilon\right)=\text{(裏が出る確率)}は0に収束する。すなわち、 X_n 1に確率収束する。

ところが、実は X_n 1に概収束しない。

この例は、確率収束するだけでなく、任意の実数 r\ge 1について r次平均収束する。
実際、定義に従って計算すると、

 \displaystyle
\begin{eqnarray}
 \mathbb{E}\left[ \left| X_n - X \right|^r \right] 
 &=& \frac{1}{n} \times |0-1|^r + \frac{n-1}{n} \times |1-1|^r \\
 &=& \frac{1}{n} \\
 \Leftrightarrow \lim_{n\rightarrow \infty} \mathbb{E}\left[ \left| X_n - X \right|^r \right] &=& 0 
\end{eqnarray}

となるので、 X_n X r次平均収束する。

概収束するが r次平均収束しない例

今度は、前述した「設定をちょっと変えるだけで概収束する例」を再掲しよう。

区間 [0, 1]の一様分布からランダムに1つ値を持ってきて sとする。いま、 X_nを、 0\le s \le \frac{1}{n}のとき X_n=0 \frac{1}{n} < s \le 1のとき X_n=1と定めよう。
このとき、 X_n 1に概収束する。

この例は、概収束するし、平均収束もする。
少し例を変えよう。


区間 [0, 1]の一様分布からランダムに1つ値を持ってきて sとする。いま、 X_nを、 0\le s \le \frac{1}{n}のとき X_n=n \frac{1}{n} < s \le 1のとき X_n=0と定めよう。
このとき、 X_n 0に概収束する。


この例では、 X_n 0に概収束する。しかしながら、 X_n 0に平均収束しない。(したがって、任意の実数 r\ge 1について r次平均収束しない。)
定義に従って計算すると、

 \displaystyle
\begin{eqnarray}
 \mathbb{E}\left[ \left| X_n - X \right|^1 \right] 
 &=& \frac{1}{n} \times |n-0| + \frac{n-1}{n} \times |0-0| \\
 &=& 1 \\
 \Leftrightarrow \lim_{n\rightarrow \infty} \mathbb{E}\left[ \left| X_n - X \right|^1 \right] &=& 1 \neq 0 
\end{eqnarray}

となり、 X_n 0に平均収束しないことがわかる。

まとめ

確率変数列の収束性について、5種類の収束(分布収束、確率収束、概収束、確実収束、平均収束)を紹介した。
また、それらの関係性や簡単な性質などについて、多少数式を交えつつ説明した。

最後のまとめとして、wikipediaのわかりやすい図を載せておこう。
https://wikimedia.org/api/rest_v1/media/math/render/svg/f062f02e93cb28cf03db9d5d4cd435aae4eb7a44

みなさんの役に立てば幸いである。

参考サイト


ありがとうございました。