自然科学の統計学4章最尤法を読んだその5

はじめに
記事リンク
4.3.3 フィッシャー情報量とクラメール・ラオの下限に関する諸々のTips
今日はここまで

はじめに

前回の記事からしばらく時間が空いてしまって、はてなブログの連続投稿日数の記録が途切れてしまった。
それというのも、貴重なゴールデンウィークを誰も見ていない数学記事の投稿に使うのはあまりにももったいないと感じたからである。嘘です。普通に楽しく書いてます。

記事を投稿していない間僕が何をしていたかというと、友人とずっとTRPGをやっていた。お菓子と酒を買い込んで友人宅に泊まり、1泊2日でクトゥルフ神話TRPGをやったりアリアンロッド2Eをやったりしていた。
TRPGというのは、テーブルトーク・ロールプレイングゲームの略で、人間とダイスだけでやるドラクエのようなものである。相手がコンピュータじゃないので、突拍子もない行動が取れてしまったり、ダイスの目次第でGM（ゲームマスター）すら想定していなかった方向に突き進んだりする、自由度の広さが魅力の一つだ。僕のPC（プレイヤーキャラクター）は何度も発狂を繰り返し、6ヶ月治らない異常性癖を持ってしまったり狂ったようにダンスを踊ったりするなどしたが、まあ生きて帰ってくることができた。TRPGはいいぞ。

…この日記要素、要る？

記事リンク

第一回
kriver-1.hatenablog.com

前回
kriver-1.hatenablog.com

次回
kriver-1.hatenablog.com

4.3.3 フィッシャー情報量とクラメール・ラオの下限に関する諸々のTips

4.3.3.0 前回のあらすじ

前回の記事で、我々はフィッシャー情報量
$\displaystyle I(\theta', \boldsymbol{x}) = -\mathbb{E}_{\boldsymbol{y} \sim f(\cdot; \theta', \boldsymbol{x})} \left[ \left. \frac{\partial^2}{\partial \theta^2} \log f(\boldsymbol{y}; \theta, \boldsymbol{x}) \right|_{\theta=\theta'} \right]$
あるいは、雑に書けば
$\displaystyle I(\theta) = -\mathbb{E} \left[ \frac{\partial^2}{\partial \theta^2} \log f(\boldsymbol{y}) \right]$
が、任意の不偏推定量 $t(\boldsymbol{y})$ の分散と
$\displaystyle V\left[ t(\boldsymbol{y}) \right] \ge \frac{1}{I(\theta)}$
という関係にあることを、長い道のりの末に示したのだった。

また、その証明の途中で、
$\displaystyle I(\theta) = -\mathbb{E} \left[ \frac{\partial^2}{\partial \theta^2} \log f(\boldsymbol{y}) \right] = V \left[ \frac{\partial}{\partial \theta} \log f(\boldsymbol{y}) \right]$
という式が出てきていたことも、せっかくなのでここに書き加えておく。

この項では、前項で話しきれなかったフィッシャー情報量やクラメール・ラオの下限に関する話を2つほどして、その実例を計算してみようと思う。少し短くなってしまうかもしれないが許してほしい。

4.3.3.1 有効推定量

不偏推定量の分散とフィッシャー情報量についてのこの不等式
$\displaystyle V\left[ t(\boldsymbol{y}) \right] \ge \frac{1}{I(\theta)}$
を、クラメール・ラオの不等式と呼ぶこともある。
この不等式の右辺に出てくる $\theta$ は、証明を注意深く追ってもらえればわかることだが、どんな $\theta$ でもよいわけではなく、真の値 $\theta_0$ についての値になる（期待値や分散を計算する時にくっついている $f$ の中身に注目すればよい）。
従って、この不等式の右辺は $\theta_0$ が決まれば、すなわちモデル $f$ とデータ $\boldsymbol{x}, \boldsymbol{y}$ が与えられれば、（陽に求まるわけではないが）一意に定まる。

このクラメール・ラオの不等式の等号を達成するような推定量のことを、有効推定量 (efficient estimator) と呼ぶ。もし有効推定量が存在するならば、その推定量は当然あらゆる不偏推定量の中で分散最小になっているはずである。そのような不偏推定量のことを最小分散不偏推定量と呼ぶ。
わざわざ有効推定量と最小分散不偏推定量という2つの別名がついていることに疑問を持つ読者もいるかもしれない。僕も疑問を持った。同じものであれば、わざわざ2つも名前をつける必要はないはずだ。

ところが、この2つは同一ではないのである。任意の推定量について、その推定量が有効推定量ならば、その推定量は最小分散不偏推定量となる。これは正しい。ところが、その推定量が最小分散不偏推定量だったからといって、その推定量が有効推定量であるとは限らない。すなわち、分散の最小値が $1/I(\theta)$ よりも大きくなってしまう場合が存在するのだ。

…いや、おかしい。もしそうならば、クラメール・ラオの下限ではなく、クラメール・ラオの下界と呼ぶべきなのではないだろうか？ $x$ が $f$ の下界であるとは、 $f$ が絶対に $x$ 以上になることを表しているが、 $x$ が $f$ の下限であるというのは、その条件を満たした上でさらに $x$ がそのようなあらゆる $f$ の下界の中で最大であることを表している。我々が前項で示したのは前者だけだ。

そう思って英語で調べてみて、すぐに解決した。クラメール・ラオの下限は、英語では Cramér-Rao's lower bound と呼ぶらしい。lower bound （下界）である。infimum（下限）ではない。
最初に訳語を当てた人が間違えたので、いまでも下限と訳されている、というそれだけのことらしい。うーん。キレそう。

そんなわけなので、以降はこの記事でも $\frac{1}{I(\theta)}$ のことをクラメール・ラオの下界と呼んでいこうと思う。

4.3.3.2 独立なデータの情報量

説明変数 $\boldsymbol{x}$ がない場合を考えよう。この場合、データ $\boldsymbol{y}$ はある同一の母集団、確率分布から独立に生起していると考えてよい。そうすると、データ $\boldsymbol{y}$ が生起する確率 $f(\boldsymbol{y}; \theta)$ は
$\displaystyle \begin{eqnarray} f(\boldsymbol{y}; \theta) = \prod_i^N f(y_i; \theta) = \left\{ f(y_1; \theta) \right\}^N \end{eqnarray}$
となるから、フィッシャー情報量は
$\displaystyle \begin{eqnarray} I(\theta) &=& -\mathbb{E} \left[ \frac{\partial^2}{\partial \theta^2} \log f(\boldsymbol{y}) \right] \\ &=& -\mathbb{E} \left[ \frac{\partial^2}{\partial \theta^2} \log \left\{ f(y_1; \theta) \right\}^N \right] \\ &=& -\mathbb{E} \left[ \frac{\partial^2}{\partial \theta^2} N \log f(y_1; \theta) \right] \\ &=& - N \mathbb{E} \left[ \frac{\partial^2}{\partial \theta^2} \log f(y_1; \theta) \right] \\ &=& N I_1(\theta) \end{eqnarray}$
となる。データ数が倍になると、情報量も倍になるということだ。 $I_1(\theta)$ は、データ1つあたりの情報量を表していると考えればよい。
このように、独立なデータ間にはフィッシャー情報量の加法性が成り立つ。これは「情報量」という言葉に対する直感的要請とも合致する。

4.3.3.3 有効推定量の例1

フィッシャー情報量の解説のときに用いた「原点を通る単回帰モデル」を覚えているだろうか。

$\displaystyle y_i=ax_i+\varepsilon_i$
自然科学の統計学4章最尤法を読んだその3 - ブログ村

あのときとびきり単純なモデルを扱うと言ったが、申し訳ない、あれは嘘だ。もっと単純なモデルがある。繰り返し測定のモデルだ。

繰り返し測定のモデルは、説明変数がないデータ $y_i$ を平均 $\mu$ だけで推定するモデルのことだ。ある真の値 $\mu_0$ があるという仮定の下、その真の値の周囲に分布するような独立な観測が得られる、というモデルだ。
$\displaystyle y_i=\mu+\varepsilon_i$
ちょうどこういう形になる。

このモデルでも、誤差 $\varepsilon$ は平均 $0$ 、分散 $\sigma^2$ の正規分布に従うと仮定する。従って、その尤度は
$\displaystyle \begin{eqnarray} L(\theta; Y) &=& \prod_i^N (\text{正規分布から} y_i - \mu \text{が飛び出してくる確率}) \\ &=& \prod_i^{N} Pr\left(\varepsilon_i = y_i - \mu | \varepsilon_i \sim \mathcal{N}(0, \sigma^2) \right) \\ &=& \prod_i^N (2\pi \sigma^2)^{-\frac{1}{2}}\exp\left\{ - \frac{\left((y_i - \mu) - 0\right)^2} {2\sigma^2} \right\} \\ \log L(\theta; Y) &=& \sum_i^N \left\{ -\frac{1}{2} \log (2\pi\sigma^2) \right\} -\sum_i^N \frac{(y_i - \mu)^2}{2\sigma^2} \\ &=& -\frac{N}{2}\log(2\pi\sigma^2) - \frac{1}{\sigma^2} \sum_i^N \frac{(y_i - \mu)^2}{2} \\ \end{eqnarray}$

のようになるから、最尤推定量 $\hat{\theta}=\hat{\mu}, \hat{\sigma}$ は

$\displaystyle \begin{eqnarray} \left. \frac{\partial}{\partial \mu} \log L(\theta; Y) \right|_{\theta=\hat{\theta}} &=& \left. -\frac{\partial}{\partial \mu} \frac{1}{\sigma^2} \sum_i^N \frac{(y_i - \mu)^2}{2} \right|_{\theta=\hat{\theta}} \\ &=& -\left. \frac{1}{\sigma^2} \sum_i^N (\mu - y^i) \right|_{\theta=\hat{\theta}} \\ &=& -\frac{1}{\sigma^2} \left( N\hat{\mu} - \sum_i^N y^i \right) = 0 \\ \Leftrightarrow \hat{\mu} &=& \frac{1}{N}\sum_i^N y^i \\ &=& \bar{y} \end{eqnarray}$

および

$\displaystyle \begin{eqnarray} &&\left. \frac{\partial}{\partial \sigma} \log L(\theta; Y) \right|_{\theta=\hat{\theta}} \\ &=& \left. \frac{\partial}{\partial \sigma} \left( -\frac{N}{2}\log(2\pi\sigma^2) - \frac{1}{\sigma^2} \sum_i^N \frac{(y_i - \mu)^2}{2} \right) \right|_{\theta=\hat{\theta}} \\ &=& \left[ -\frac{N}{2}\frac{\partial}{\partial \sigma}\log(2\pi\sigma^2) -\sum_i^N \frac{(y_i - \mu)^2}{2} \frac{\partial}{\partial \sigma}\frac{1}{\sigma^2} \right]_{\theta=\hat{\theta}} \\ &=& \left[ -\frac{N}{2}\frac{1}{2\pi\sigma^2}\frac{\partial}{\partial \sigma} \left( 2\pi\sigma^2 \right) -\sum_i^N \frac{(y_i - \mu)^2}{2}\frac{-2}{\sigma^3} \right]_{\theta=\hat{\theta}} \\ &=& \left[ -\frac{N * 4\pi\sigma}{2 * 2\pi\sigma^2} -\frac{-2}{2 * \sigma^3}\sum_i^N \left(y_i - \mu\right)^2 \right]_{\theta=\hat{\theta}} \\ &=& \left[ -\frac{N}{\sigma} +\frac{1}{\sigma^3}\sum_i^N \left(y_i - \mu\right)^2 \right]_{\theta=\hat{\theta}} \\ &=& \frac{1}{\hat{\sigma}^3} \left(\sum_i^N \left(y_i - \hat{\mu}\right)^2 - N\hat{\sigma}^2 \right) = 0 \\ \Leftrightarrow \hat{\sigma}^2 &=& \frac{1}{N}\sum_i^N \left(y_i - \hat{\mu}\right)^2 \end{eqnarray}$

のようになる。

この2つの推定量のうち、 $\mu$ を推定する量 $\hat{\mu} = \bar{y}$ が、 $\mu$ の有効不偏推定量になっていることを示そう。

まず、 $\bar{y}$ が不偏推定量になっていることを示す。 $t(\theta)$ が $\theta$ の不偏推定量になっていることを示すためには、データがモデルと真の値 $\theta_0$ から出ているときの $t(\theta)$ の期待値が $\theta_0$ になっているかどうかを見れば良いのであった。実際に計算してみると、
$\displaystyle \begin{eqnarray} && \mathbb{E}_{\boldsymbol{y} \sim f(\boldsymbol{y}; \theta_0)} \left[ \bar{y} \right] \\ &=& \mathbb{E}_{\boldsymbol{y} \sim f(\boldsymbol{y}; \theta_0)} \left[ \frac{1}{N}\sum_i^N y^i \right] \\ &=& \mathbb{E}_{\boldsymbol{\varepsilon} \sim \mathcal{N}(0, \sigma_0^2)} \left[ \frac{1}{N}\sum_i^N \left( \mu_0 + \varepsilon_i \right) \right] \\ &=& \mu_0 + \mathbb{E}_{\boldsymbol{\varepsilon} \sim \mathcal{N}(0, \sigma_0^2)} \left[ \frac{1}{N}\sum_i^N \left( \varepsilon_i \right) \right] \\ &=& \mu_0 \end{eqnarray}$
となって、これは真の値 $\mu_0$ に等しいから、 $\hat{\mu} = \bar{y}$ はちゃんと $\mu$ の不偏推定量になっている。

次に、 $\bar{y}$ が有効推定量になっていることを示す。そのためには、 $\mu$ についてのフィッシャー情報量を計算してその逆数と $\bar{y}$ の分散を比較すればよい。

フィッシャー情報量 $I(\theta)$ は対数尤度の二階微分（の $-1$ 倍）であったから、
$\displaystyle \begin{eqnarray} I_1(\theta_0) &=& -\mathbb{E}_{y \sim f(y; \theta_0)} \left[ \left. \frac{\partial^2}{\partial \theta^2} \log f(y; \theta) \right|_{\theta=\theta_0} \right] \\ &=& -\mathbb{E}_{y \sim f(y; \theta_0)} \left[ \left. \frac{\partial}{\partial \theta} \frac{\partial}{\partial \theta} \log f(y; \theta) \right|_{\theta=\theta_0} \right] \\ &=& -\mathbb{E}_{y \sim f(y; \theta_0)} \left[ \left. \frac{\partial}{\partial \mu} \left( -\frac{1}{\sigma^2} \left( \mu - y \right) \right) \right|_{\theta=\theta_0} \right] \\ &=& -\mathbb{E}_{y \sim f(y; \theta_0)} \left[ \left. \left( -\frac{1}{\sigma^2} \right) \right|_{\theta=\theta_0} \right] \\ &=& \frac{1}{\sigma_0^2}\\ \therefore I(\theta_0) &=& N I_1(\theta_0) = \frac{N}{\sigma_0^2} \end{eqnarray}$
となる。

一方、 $\hat{\mu} = \bar{y}$ の分散は
$\displaystyle \begin{eqnarray} && \text{Var}_{\boldsymbol{y} \sim f(\boldsymbol{y}; \theta_0)} \left[ \bar{y} \right] \\ &=& \mathbb{E}_{\boldsymbol{y} \sim f(\boldsymbol{y}; \theta_0)} \left[ \left( \bar{y} - \mathbb{E}\left[ \bar{y} \right] \right)^2 \right] \\ &=& \mathbb{E}_{\boldsymbol{y} \sim f(\boldsymbol{y}; \theta_0)} \left[ \left( \bar{y} - \mu_0 \right)^2 \right] \\ &=& \mathbb{E}_{\boldsymbol{y} \sim f(\boldsymbol{y}; \theta_0)} \left[ \left( \frac{1}{N}\sum_i^N y_i - \mu_0 \right)^2 \right] \\ &=& \mathbb{E}_{\boldsymbol{\varepsilon} \sim \mathcal{N}(0, \sigma_0^2)} \left[ \left( \frac{1}{N}\sum_i^N \mu_0 + \varepsilon_i - \mu_0 \right)^2 \right] \\ &=& \mathbb{E}_{\boldsymbol{\varepsilon} \sim \mathcal{N}(0, \sigma_0^2)} \left[ \left( \frac{1}{N}\sum_i^N \left( \varepsilon_i - 0 \right) \right)^2 \right] \\ &=& \frac{1}{N^2}\sum_i^N \text{Var}_{\varepsilon_i \sim \mathcal{N}(0, \sigma_0^2)} \left[ \varepsilon_i \right] \\ &=& \frac{N}{N^2} \sigma_0^2 \\ &=& \frac{\sigma_0^2}{N} \end{eqnarray}$
となる（式変形の途中で、各 $\varepsilon_i$ が独立であることを用いた）。
ゆえに、
$\displaystyle \begin{eqnarray} \text{Var} \left[ \bar{y} \right] &=& \frac{\sigma_0^2}{N} \\ &=& \frac{1}{I(\theta_0)} \end{eqnarray}$
となり、 $\hat{\mu} = \bar{y}$ が、 $\mu$ の有効推定量になっていることが示された。

4.3.3.4 有効推定量の例2

前目の続きとして、せっかく計算したもう一つの推定量、 $\hat{\sigma}^2 = \frac{1}{N}\sum_i^N \left(y_i - \hat{\mu}\right)^2$ についても有効不偏推定量になっていることを示そう。

…と思ったのだが、実はこの推定量、有効推定量でもなければそもそも不偏推定量でもない。
次節で見る通り、最尤推定量は $N$ 大の下で推定量としての良い性質を備えるものであって、常に最尤推定量が良い推定量であるとは限らないのである。

天下り的になるが、このモデルにおける分散 $\sigma^2$ の不偏推定量の一つは、 $\tilde{\sigma}^2 = \frac{1}{N-1}\sum_i^N \left(y_i - \hat{\mu}\right)^2$ である。 $-1$ が分母に入っていることに注意してほしい。
実際、この推定量の期待値は

$\displaystyle \begin{eqnarray} && \mathbb{E}_{\boldsymbol{y} \sim f(\boldsymbol{y}; \theta_0)} \left[ \tilde{\sigma}^2 \right] \\ &=& \mathbb{E}_{\boldsymbol{y} \sim f(\boldsymbol{y}; \theta_0)} \left[ \frac{1}{N-1}\sum_i^N \left(y_i - \hat{\mu}\right)^2\right] \\ &=& \frac{1}{N-1}\mathbb{E}_{\boldsymbol{y} \sim f(y_i; \theta_0)} \sum_i^N \left[ \left(y_i - \bar{y} \right)^2\right] \\ &=& \frac{1}{N-1}\mathbb{E}_{\boldsymbol{y} \sim f(y_i; \theta_0)} \sum_i^N \left[ \left(\left(y_i - \mu_0 \right) - \left( \bar{y} - \mu_0 \right) \right)^2\right] \\ &=& \frac{1}{N-1}\mathbb{E}_{\boldsymbol{y} \sim f(y_i; \theta_0)} \sum_i^N \left[ \left(y_i - \mu_0 \right)^2 - 2 \left(y_i - \mu_0 \right) \left( \bar{y} - \mu_0 \right) + \left( \bar{y} - \mu_0 \right)^2 \right] \\ &=& \frac{1}{N-1} \left( \mathbb{E} \sum_i^N \left[ \left(y_i - \mu_0 \right)^2 \right] - 2 \mathbb{E} \sum_i^N \left[ \left(y_i - \mu_0 \right) \left( \bar{y} - \mu_0 \right) \right] + \mathbb{E} \sum_i^N \left[ \left( \bar{y} - \mu_0 \right)^2 \right] \right) \\ &=& \frac{1}{N-1} \left( \mathbb{E} \sum_i^N \varepsilon^2 - 2 \mathbb{E} \left( \bar{y} - \mu_0 \right) \sum_i^N \left(y_i - \mu_0 \right) + \mathbb{E} \left[ \left( \bar{y} - \mu_0 \right)^2 \right] \sum_i^N 1 \right) \\ &=& \frac{1}{N-1} \left( N \sigma_0^2 - 2 N \mathbb{E} \left( \bar{y} - \mu_0 \right) \left( \frac{1}{N} \sum_i^N y_i - \mu_0 \right) + N \mathbb{E} \left[ \left( \bar{y} - \mu_0 \right)^2 \right] \right) \\ &=& \frac{1}{N-1} \left( N \sigma_0^2 - 2 N \mathbb{E} \left( \bar{y} - \mu_0 \right) \left( \bar{y} - \mu_0 \right) + N \mathbb{E} \left[ \left( \bar{y} - \mu_0 \right)^2 \right] \right) \\ &=& \frac{1}{N-1} \left( N \sigma_0^2 - N \mathbb{E} \left( \bar{y} - \mu_0 \right)^2 \right) \\ &=& \frac{1}{N-1} \left( N \sigma_0^2 - N \text{Var}\left[\bar{y}\right] \right) \\ &=& \frac{1}{N-1} \left( N \sigma_0^2 - N \frac{\sigma_0^2}{N} \right) \\ &=& \frac{1}{N-1} \left( N \sigma_0^2 - \sigma_0^2 \right) \\ &=& \frac{N-1}{N-1} \sigma_0^2 \\ &=& \sigma_0^2 \end{eqnarray}$

となって（かなりトリッキーかつ長い計算になってしまったが）、この推定量が不偏推定量になっていることがわかる。

計算がさらに煩雑になるのでここでは証明は行わないが、この推定量 $\tilde{\sigma}^2$ の分散 $\frac{2\sigma_0^4}{N-1}$ はあらゆる推定量の中で最小になっている。すなわち、この推定量は最小分散不偏推定量である。
しかしながら、この分散はクラメール・ラオの下界には一致しない。実際、フィッシャー情報量を計算してみると

$\displaystyle \begin{eqnarray} I_1(\theta_0) &=& -\mathbb{E}_{y \sim f(y; \theta_0)} \left[ \left. \frac{\partial^2}{\partial \theta^2} \log f(y; \theta) \right|_{\theta=\theta_0} \right] \\ &=& -\mathbb{E}_{y \sim f(y; \theta_0)} \left[ \left. \frac{\partial}{\partial \left(\sigma^2\right)} \frac{\partial}{\partial \left(\sigma^2\right)} \log f(y; \theta) \right|_{\theta=\theta_0} \right] \\ &=& -\mathbb{E}_{y \sim f(y; \theta_0)} \left[ \left. \frac{\partial \sigma}{\partial \left(\sigma^2\right)} \frac{\partial}{\partial \sigma} \frac{\partial \sigma}{\partial \left(\sigma^2\right)} \frac{\partial}{\partial \sigma} \log f(y; \theta) \right|_{\theta=\theta_0} \right] \\ &=& -\mathbb{E}_{y \sim f(y; \theta_0)} \left[ \left. \frac{1}{2\sigma} \frac{\partial}{\partial \sigma} \frac{1}{2\sigma} \frac{\partial}{\partial \sigma} \log f(y; \theta) \right|_{\theta=\theta_0} \right] \\ &=& -\mathbb{E}_{y \sim f(y; \theta_0)} \left[ \left. \frac{1}{2\sigma} \frac{\partial}{\partial \sigma} \frac{1}{2\sigma} \left( -\frac{N}{\sigma} +\frac{1}{\sigma^3}\sum_i^N \left(y_i - \mu\right)^2 \right) \right|_{\theta=\theta_0} \right] \\ &=& -\mathbb{E}_{y \sim f(y; \theta_0)} \left[ \left. \frac{1}{2\sigma} \frac{\partial}{\partial \sigma} \left( -\frac{N}{2\sigma^2} +\frac{1}{2\sigma^4}\sum_i^N \left(y_i - \mu\right)^2 \right) \right|_{\theta=\theta_0} \right] \\ &=& -\mathbb{E}_{y \sim f(y; \theta_0)} \left[ \left. \frac{1}{2\sigma} \left( -\frac{-2N}{2\sigma^3} +\frac{-4}{2\sigma^5}\sum_i^N \left(y_i - \mu\right)^2 \right) \right|_{\theta=\theta_0} \right] \\ &=& -\frac{N}{2\sigma_0^4} + \frac{1}{\sigma_0^6} \mathbb{E}_{y \sim f(y; \theta_0)} \left[ \sum_i^N \left(y_i - \mu_0\right)^2 \right] \\ &=& -\frac{N}{2\sigma_0^4} + \frac{1}{\sigma_0^6} N \mathbb{E}_{\varepsilon \sim \mathcal{N}(0, \sigma_0^2)} \left[ \varepsilon^2 \right] \\ &=& -\frac{N}{2\sigma_0^4} + \frac{N}{\sigma_0^4} \\ &=& \frac{N}{2\sigma_0^4} \end{eqnarray}$

となって、クラメール・ラオの下界 $\frac{1}{I(\theta)} = \frac{2\sigma_0^4}{N}$ は最小分散不偏推定量 $\tilde{\sigma}^2$ の分散 $\frac{2\sigma_0^4}{N-1}$ より若干小さくなっていることがわかる。クラメール・ラオの下界が下限ではない例である。

ちなみに、最尤推定量は $\hat{\sigma}^2 = \frac{1}{N}\sum_i^N \left(y_i - \hat{\mu}\right)^2$ だったから、 $N$ が十分大きければ $N\simeq N-1$ となって、最尤推定量は先ほどの最小分散不偏推定量に近づいていく。このように、最尤推定量には $N$ が大きくなると有効推定量に近づいていく性質がある。

次項では、この最尤推定量の漸近的な性質について詳しく見ていこうと思う。

今日はここまで

短めになるかもしれないなどと言いつつ、数式のせいでハチャメチャに長くなってしまった。参考書にはもう一つ例が載っているのだが、疲れてしまったのでこの節はここで終わろうと思う。もう一つの例が知りたい場合は参考書を自分で買って読んでほしい。数式のジャンプが非常に大きいので、僕の記事が如何に丁寧かということがよくわかるだろう。

いつものように承認乞食をしようと思ったが、マンネリは良くない。押してもダメなら引いてみろということで、今日は承認欲求を抑えて終わろうと思う。別にあなたの星が欲しいわけじゃないんだから、下にある黄色い星マークを押して僕の承認欲求を満たしてほしいなんて全く思ってもいないんだからね。その横のSNS共有を求めてるなんてこともないんだからね。次回もよろしくお願いしますね。

前回
kriver-1.hatenablog.com

次回
kriver-1.hatenablog.com