両辺を微分する気持ちがわからない

(この記事は、 僕が自然科学の統計学4章 最尤法 を読んだ その3 - ブログ村 を投稿した翌日に書き殴って下書きに保存した、僕がわからないわからないとウンウンうなるだけの記事をブラッシュアップしたものです。)


はじめに

僕は人の気持ちを考えるのが得意ではない。
むしろ苦手と言って差し支えない。


自分でも自覚しているし、他人に指摘されたことも何度もある。
他人の気持ちがわからないので、ブログでは時々「人類はみんな数学や統計が大好きなので」などと口走ったりする。他人の気持ちがわからないので、自分の気持ちを人に当てはめようとするのである。


そんな僕でも、気持ちがわかる対象がある。参考書だ。

参考書の類は、程度に差はあれ主張が数学で記述されている。第一外国語として数学を習わなかった人には伝わらないかもしれないが、数学は自然言語みたいなゴミと違ってwell-definedだ。公理系と呼ばれるアダムとイヴ的な原初のルールから出発して、そのルールから導かれることしか正しいと主張できない。数学で記述されてさえいれば、主張が違おうと言語が違おうと、すぐに建設的な議論を行うことができる。数学は共通言語だ。その定理の証明をしていただけますか。Could you explain the Shoumei of this Teiri? :) :) :)


ところが、最近参考書が僕に振り向いてくれなくなった。
僕はいま、自然科学の統計学というスーパー面白ブックについての連載記事を書いている。今日はちょうど、前項までに定義したフィッシャー情報量を用いて、あらゆる最尤推定量に分散下限が存在するという非常に強い主張を行うクラメール・ラオの下限定理について紹介する、一番エキサイティングな話を書く回だ。
僕は既に、友人に対してこのクラメール・ラオの下限定理の証明を一度説明したことがある。もちろん、自分で式を追いかけたことも何回もある。なんなら昨日は布団の中で寝る前に証明の流れを反芻した。

しかし、いざ数式を書き始めると、僕の手が止まる。
これまで何の違和感もなく流していた数式が、いきなり僕に牙を剥くのだ。


間違っているのは誰だ


参考書の内容を、一字一句間違えずここに載せてみる。

統計量 t(\boldsymbol{y}) \thetaの不偏推定量であるということは
 \displaystyle
\begin{eqnarray}
 \text{(4. 28)       } \int t(\boldsymbol{y})\; f_{\theta} (\boldsymbol{y}) \; d\boldsymbol{y} = \theta &  \\
 (\boldsymbol{y} = (y_1, \cdots \cdots, y_n)' & \:\:\: d\boldsymbol{y} \equiv dy_1 dy_2 \cdots dy_n )
\end{eqnarray}
と表される(ここで,積分 n次元空間全域にわたる定積分である).この式の両辺を \theta微分することにより
 \displaystyle
 \text{(4. 29)       } \int t(\boldsymbol{y}) \{ \partial f_{\theta} (\boldsymbol{y}) / \partial \theta \} d\boldsymbol{y} = 1
が得られる.


何の問題があるというのか?不偏推定量であるということは期待値が真の値 \thetaに等しいということだし、積分が全域にわたる定積分であることも疑いようのない事実だ。両辺だって \thetaの関数なんだから微分くらいできて当たり前だし、もちろんその結果は(4.29)式の通りだ。


じっくり読んでいただけただろうか?
では、みなさんにも数式が牙を剥く瞬間をご覧いただこう。

ここからは、真の値 \theta \theta_0と書くことにする。
任意の真の値 \theta_0、任意の説明変数 \boldsymbol{x_0}、任意のモデル f_0(\boldsymbol{y}; \theta, \boldsymbol{x})が与えられたとき、任意の観測データ \boldsymbol{y}は確率分布 f_0(\boldsymbol{y}; \theta_0, \boldsymbol{x_0})に従う。これは仮定なので、必ず正しいと思って議論を進めてよい。
任意の真の値 \theta_0、任意の説明変数 \boldsymbol{x_0}、任意のモデル f_0(\boldsymbol{y}; \theta, \boldsymbol{x})について考える。 \thetaを推定する任意の推定量 t(\boldsymbol{x}, \boldsymbol{y})について、その推定量が次の式を満たすとき、またそのときに限り、その推定量 \thetaの不偏推定量である。
 \displaystyle
 \int f_0(\boldsymbol{y}; \theta_0, \boldsymbol{x_0}) \; t(\boldsymbol{x_0}, \boldsymbol{y}) \; d\boldsymbol{y} = \theta_0

参考書では、この式の両辺を \theta_0、真の値で微分すると言っている。
これができるためには、両辺が \theta_0の関数でなければならない。
もし両辺が \theta_0の関数でなかったら、 \theta_0微分することはできない。 \theta_0を微小に動かした後、等式が成り立たなくなってしまうからだ。

さて、この式の両辺は本当に \theta_0の関数なのだろうか?


例えば、関数 f(x) = 9/xと値 x_0 = 3を考えよう。この式は、 x=x_0のとき f(x_0) = x_0を満たす。
ところが、この式の両辺は x_0の関数ではない。 x_0 3という値であって、 x_0を微小量動かすと f(x_0) = x_0はもはや成り立たなくなってしまう。両辺を微分して、
 \displaystyle
\begin{eqnarray}
\frac{\partial}{\partial x_0} f(x_0) &=& \frac{\partial}{\partial x_0} x_0 \\
\Leftrightarrow \frac{\partial}{\partial x_0} \frac{9}{x_0} &=& 1 \\
\Leftrightarrow \frac{-9}{x_0^2} &=& 1 \\
\Leftrightarrow -1 &=& 1 \\
\end{eqnarray}

などとすることはできないのである。


これを踏まえてもう一度、参考書の内容をここに貼ってみよう。

統計量 t(\boldsymbol{y}) \thetaの不偏推定量であるということは
 \displaystyle
\begin{eqnarray}
 \text{(4. 28)       } \int t(\boldsymbol{y})\; f_{\theta} (\boldsymbol{y}) \; d\boldsymbol{y} = \theta &  \\
 (\boldsymbol{y} = (y_1, \cdots \cdots, y_n)' & \:\:\: d\boldsymbol{y} \equiv dy_1 dy_2 \cdots dy_n )
\end{eqnarray}
と表される(ここで,積分 n次元空間全域にわたる定積分である).この式の両辺を \theta微分することにより
 \displaystyle
 \text{(4. 29)       } \int t(\boldsymbol{y}) \{ \partial f_{\theta} (\boldsymbol{y}) / \partial \theta \} d\boldsymbol{y} = 1
が得られる.

果たして、この操作は正しいのだろうか? \thetaは真の値、値ではなかったか?式(4. 28)は \theta = \theta_0のときのみ偶然に成り立つ式であって、真の値をあたかも変数のように \thetaと書くことで、ごまかされているだけなのではないだろうか?


こうして僕は、数学の迷宮に迷い込んでしまったのである。





答え合わせ


さて、盛り上げておいて大変申し訳ないのだが、この問題は既に解決済みだ。
参考書の式変形は全くもって正しいし、僕はこの記事のどこかで間違いを犯している。
みなさんにはそれがどこかわかるだろうか?

ぜひ、疑いの目を持ってこの記事をもう一度読んでみてほしい。
1時間以内に解決できたら、あなたは僕よりも賢い人なのでそのことを周囲に誇り散らかしてくれて構わない。



僕なりの解答はいずれ別の記事で開陳する予定だ。
今日も読んでいただきありがとうございました。