クラメール・ラオの限界

推定理論（英語版）・統計学におけるクラメール・ラオの限界(CRB)（クラメールラオのげんかい、英: Cramér–Rao bound）（クラメール・ラオの下限(CRLB)、クラメール・ラオの不等式、Frechet–Darmois–Cramér–Rao 不等式、情報不等式とも）とは、ある確率分布の未知母数を推定する不偏推定量には、その分散についてある下限値が存在することを示すものである。名称は、1940年代にそれぞれ独立に推定精度に関する限界を見出した、ハラルド・クラメール、カリャンプディ・ラダクリシュナ・ラオ、モーリス・ルネ・フレシェ、ジョルジュ・ダルモア（英語版、フランス語版）にちなむ^[1]^[2]^[3]^[4]^[5]^[6]^[7]。

最も単純に述べると、『任意の不偏推定量の分散は、そのフィッシャー情報量の逆数以上になる』というものである。不偏な推定量がこの下限を達成するとき、その推定量は（完全な）有効推定量（英語版）であるという。この場合、その推定量はあらゆる不偏推定量の中で平均二乗誤差が最小のものとなるため、必然的に最小分散不偏推定量（英語版）（MVU推定量）にもなる。

しかしながら、どんな不偏推定量を考えても分散が決してクラメール・ラオの下限に到達できないようなケースもある（MVU推定量が存在するときでもこれは起こりえる）。

クラメール・ラオの限界には、不偏でない推定量に対するバージョンもある。不偏性の条件を取り除くことで、推定量の分散・平均二乗誤差が、不偏の場合のクラメール・ラオの下限を「下回る」ようなケースも存在する。推定量の偏り（英語版）も参照。

母数が1つで推定量が不偏の場合

ここでは、母数が1つ・推定量が不偏である場合から始めて、いくつかのかなり一般的な場合へと拡張していく。どのバージョンでもある種の正規性の仮定をおくが、それはほとんどの「普通のふるまいをする」確率分布については成り立つものである。この条件については後述する。

何らかの確率密度関数 $f(x;\theta )$ に従って分布する量 $x$ の観測値から、未知母数 $\theta$ を推定することを考える。このとき、 $\theta$ に対する任意の不偏な推定量 ${\hat {\theta }}$ の分散は、フィッシャー情報量 $I(\theta )$ の逆数以上になる：

\operatorname {Var} ({\hat {\theta }})\geq {\frac {1}{I(\theta )}}

フィッシャー情報量 $I(\theta )$ は

I(\theta )=\operatorname {E} \left[\left({\frac {\partial \ell (X;\theta )}{\partial \theta }}\right)^{2}\right]

と定義される。ここで、 $\ell (x;\theta )=\ln(f(x;\theta ))$ は尤度の自然対数をとったもの（なお ${\frac {\partial \ell (x;\theta )}{\partial \theta }}$ をスコア関数（英語版）という）で、 $\operatorname {E}$ は平均を表す。

不偏推定量 ${\hat {\theta }}$ の有効度は、推定量の分散がこの下限にどの程度接近しているかを測る指標で、次のように定義される。

e({\hat {\theta }})={\frac {I(\theta )^{-1}}{\operatorname {Var} ({\hat {\theta }})}}

不偏推定量の分散の下限値を、実際の分散で割った値、ともいえる。クラメール・ラオの下限より $e({\hat {\theta }})\leq 1$ となる。

母数が1つで、母数の関数の値を推定する場合

より一般に、確率変数 $X$ の関数 $T(X)$ を用いて、母数の関数 $\psi (\theta )$ を推定することを考える。 $\operatorname {E} \left[T(X)\right]=\psi (\theta )$ であるとする。このときの分散の下限は、

\operatorname {Var} (T)\geq {\frac {[\psi '(\theta )]^{2}}{I(\theta )}}

ここで $\psi '(\theta )$ は $\psi (\theta )$ の $\theta$ による微分、 $I(\theta )$ はフィッシャー情報量である。

母数が1つで推定量が不偏とは限らない場合

母数 $\theta$ の推定量 ${\hat {\theta }}$ に $b(\theta )=\operatorname {E} [{\hat {\theta }}]-\theta$ だけの偏りがあるとする。

$\psi (\theta )=b(\theta )+\theta$ と置いて前項の結果を使うと、

\operatorname {Var} ({\hat {\theta }})\geq {\frac {[1+b'(\theta )]^{2}}{I(\theta )}}

不偏のときの不等式は、 $b(\theta )=0$ とした特別な場合である。

分散を小さくすることだけを考えるなら、定数関数となる「推定量」をとれば、分散はゼロである。しかし上記の式から、推定量の平均二乗誤差には

\operatorname {E} \left[({\hat {\theta }}-\theta )^{2}\right]\geq {\frac {[1+b'(\theta )]^{2}}{I(\theta )}}+b(\theta )^{2}

という下限が存在することになる。ここで、平均二乗誤差の標準的な分解式

\operatorname {MSE} ({\hat {\theta }}):=\operatorname {E} \left[({\hat {\theta }}-\theta )^{2}\right]=\operatorname {E} \left[\left({\hat {\theta }}-\operatorname {E} [{\hat {\theta }}]\right)^{2}\right]+\left(\operatorname {E} [{\hat {\theta }}]-\theta \right)^{2}

を用いた。

注意：もし $1+b'(\theta )<1$ であれば、不偏のときのクラメール・ラオの下限 $1/I(\theta )$ を下回ることもある。例えば、後述する例では、 $1+b'(\theta )={\frac {n}{n+2}}<1$ となる。

母数が複数（ベクトル値）の場合

クラメール・ラオの限界を、母数が複数の場合にも拡張しよう。母数ベクトルを

{\boldsymbol {\theta }}=\left(\theta _{1},\theta _{2},\dots ,\theta _{d}\right)^{T}\in \mathbb {R} ^{d}

とし（右肩の T は転置を表す（以下同じ））、それによって決まる確率密度関数 $f(x;{\boldsymbol {\theta }})$ を考える。 $f$ は後述の正規性の条件をみたすものとする。フィッシャー情報行列は、 $d\times d$ 行列で、その成分 $I_{m,k}$ が

{\begin{aligned}I_{m,k}&=\operatorname {E} \left[{\frac {\partial }{\partial \theta _{m}}}\ln f\left(x;{\boldsymbol {\theta }}\right){\frac {\partial }{\partial \theta _{k}}}\ln f\left(x;{\boldsymbol {\theta }}\right)\right]\\&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta _{m}\partial \theta _{k}}}\ln f\left(x;{\boldsymbol {\theta }}\right)\right]\end{aligned}}

で定まる行列のことである。 ${\boldsymbol {T}}(X)$ を、母数ベクトルの任意の推定量としよう： ${\boldsymbol {T}}(X)=(T_{1}(X),\ldots ,T_{d}(X))^{T}$ 。ここで、各成分の平均を並べた平均ベクトル $\operatorname {E} [{\boldsymbol {T}}(X)]$ を ${\boldsymbol {\psi }}({\boldsymbol {\theta }})$ と記す。

このとき、 ${\boldsymbol {T}}(X)$ の分散共分散行列に対するクラメール・ラオの限界は、

\operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\geq {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}}}\left([I\left({\boldsymbol {\theta }}\right)]^{-1}{\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}}}\right)^{T}

となる。ここで、

行列に対する不等式 $A\geq B$ は、行列の差 $A-B$ が非負定値であるということである。
$\partial {\boldsymbol {\psi }}({\boldsymbol {\theta }})/\partial {\boldsymbol {\theta }}$ はヤコビ行列（ $ij$ 成分が $\partial \psi _{i}({\boldsymbol {\theta }})/\partial \theta _{j}$ ）である。

もし ${\boldsymbol {T}}(X)$ が ${\boldsymbol {\theta }}$ の不偏推定量であれば（つまり ${\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)={\boldsymbol {\theta }}$ であれば）クラメール・ラオの限界は

\operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\geq I\left({\boldsymbol {\theta }}\right)^{-1}

のようになる。フィッシャー情報行列の逆行列を計算するのが面倒な場合は、単に対応する対角成分の逆数をとることで、（より緩いかもしれないが）1つの下限が得られる^[8]。

\operatorname {Var} (T_{m}(X))=\left[\operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\right]_{mm}\geq \left[I\left({\boldsymbol {\theta }}\right)^{-1}\right]_{mm}\geq \left(\left[I\left({\boldsymbol {\theta }}\right)\right]_{mm}\right)^{-1}

正規性の条件

クラメール・ラオの不等式が成り立つための確率密度関数 $f(x;\theta )$ と推定量 $T(X)$ に関する2つの弱い十分条件は、次のとおりである:

フィッシャー情報量が常に定義されていること。言い換えると、次式を $x$ で積分した値が有限値として存在すること。

{\frac {\partial }{\partial \theta }}\ln f(x;\theta )

$T$ の期待値について、 $x$ についての積分と、 $\theta$ についての偏微分が交換可能である、つまり

{\frac {\partial }{\partial \theta }}\left[\int _{\mathbb {R} }T(x)f(x;\theta )\,dx\right]=\int _{\mathbb {R} }T(x)\left[{\frac {\partial }{\partial \theta }}f(x;\theta )\right]\,dx

が、右辺が存在する限り成り立つこと。

この条件は、以下のいずれかの場合が成り立つことをもって確認されることが多い：

関数 $f(x;\theta )$ は、 $\theta$ に依らない有界な関数の台（非ゼロとなる定義域）を持つ。
$\theta$ に依らない可積分関数 $g(x)$ が存在して $\left|T(x){\frac {\partial }{\partial \theta }}f(x;\theta )\right\vert$ を上から抑える。つまり、

\left|T(x){\frac {\partial }{\partial \theta }}f(x;\theta )\right\vert \leq g(x)\quad (\forall x,\forall \theta ),\quad \int _{\mathbb {R} }g(x)\,dx<\infty

フィッシャー情報量の変形

$f(x;\theta )$ が $\theta$ で2階偏微分可能であるとすると、フィッシャー情報量は

{\begin{aligned}I(\theta )&=\operatorname {E} \left[\left({\frac {\partial }{\partial \theta }}\ln f(X;\theta )\right)^{2}\right]\\&=\int _{\mathbb {R} }f(x;\theta ){\frac {1}{\left(f(x;\theta )\right)^{2}}}\left({\frac {\partial f(x;\theta )}{\partial \theta }}\right)^{2}\,dx\\&=-\int _{\mathbb {R} }f(x;\theta ){\frac {f(x;\theta ){\frac {\partial f(x;\theta )}{\partial \theta }}-\left({\frac {\partial f(x;\theta )}{\partial \theta }}\right)^{2}}{\left(f(x;\theta )\right)^{2}}}\,dx\\&=-\int _{\mathbb {R} }f(x;\theta )\left({\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(x;\theta )\right)\,dx\\&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]\end{aligned}}

（3番目の等号の箇所で

\int _{\mathbb {R} }{\frac {\partial f(x;\theta )}{\partial \theta }}\,dx={\frac {\partial }{\partial \theta }}\int _{\mathbb {R} }f(x;\theta )\,dx={\frac {\partial }{\partial \theta }}(1)=0

であることを用いた）

と変形でき、クラメール・ラオの不等式は次のようにも書ける。

\operatorname {Var} ({\hat {\theta }})\geq {\frac {1}{I(\theta )}}={\frac {1}{-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]}}

こちらの公式の方が下限を評価するのにより有用な場合がある。

母数が1つの場合の証明

母数が1つの場合のクラメール・ラオの不等式を一般的に証明する。

$X$ を、確率密度関数が $f(x;\theta )$ となる確率分布に従う確率変数とし、 $T=t(X)$ は $X$ の関数で、母数 $\theta$ の関数である $\psi (\theta )$ の不偏推定量であるとする。つまり、 $\operatorname {E} \left[T\right]=\psi (\theta )$ 。

目標は、任意の $\theta$ に対して

\operatorname {Var} (t(X))\geq {\frac {[\psi ^{\prime }(\theta )]^{2}}{I(\theta )}}

を示すことである。

$V$ を次のように定義する（これはスコア関数である）：

V={\frac {\partial }{\partial \theta }}\ln f(X;\theta )={\frac {1}{f(X;\theta )}}{\frac {\partial }{\partial \theta }}f(X;\theta )

ここで連鎖律を使った。 $V$ の期待値はゼロである。なぜなら：

{\begin{aligned}\operatorname {E} \left[V\right]&=\int _{\mathbb {R} }f(x;\theta )\left[{\frac {1}{f(x;\theta )}}{\frac {\partial }{\partial \theta }}f(x;\theta )\right]\,dx\\&={\frac {\partial }{\partial \theta }}\int _{\mathbb {R} }f(x;\theta )\,dx={\frac {\partial }{\partial \theta }}(1)=0\end{aligned}}

ここで積分と偏微分の順序が交換可能であること（正規性の条件の2番目）を使った。

$V$ と $T$ の共分散 $\operatorname {Cov} (V,T)$ は、 $\operatorname {E} \left[V\right]=0$ だから $\operatorname {Cov} (V,T)=\operatorname {E} \left[VT\right]$ 、よって次式を得る。

{\begin{aligned}\operatorname {Cov} (V,T)&=\operatorname {E} \left[T\cdot \left\{{\frac {1}{f(X;\theta )}}{\frac {\partial }{\partial \theta }}f(X;\theta )\right\}\right]\\[6pt]&=\int _{\mathbb {R} }t(x)\left[{\frac {1}{f(x;\theta )}}{\frac {\partial }{\partial \theta }}f(x;\theta )\right]f(x;\theta )\,dx\\[6pt]&={\frac {\partial }{\partial \theta }}\left[\int _{\mathbb {R} }t(x)f(x;\theta )\,dx\right]={\frac {\partial }{\partial \theta }}\operatorname {E} \left[T\right]=\psi ^{\prime }(\theta )\end{aligned}}

ここで再び、積分と微分が交換可能であるという条件（正規性の条件の2番目）を使った。

コーシー・シュワルツの不等式から、

{\sqrt {\operatorname {Var} (T)\operatorname {Var} (V)}}\geq \left|\operatorname {Cov} (V,T)\right|=\left|\psi ^{\prime }(\theta )\right|

よって

\operatorname {Var} (T)\geq {\frac {[\psi ^{\prime }(\theta )]^{2}}{\operatorname {Var} (V)}}={\frac {[\psi ^{\prime }(\theta )]^{2}}{I(\theta )}}

これが示したかったことである。

観測を繰り返し行うときの注意

確率変数列 $X_{1},X_{2},\cdots ,X_{n}$ を使って推定を行う場合について、未知母数が1つ（ $\theta$ ）のときに絞って概要を述べる。 ${\boldsymbol {X}}:=(X_{1},X_{2},\cdots ,X_{n})$ と書くことにする。

尤度関数は、結合確率密度関数 $f_{n}(x_{1},x_{2},\cdots ,x_{n};\theta )=f_{n}({\boldsymbol {x}};\theta )$ で与えられる（標本の値 ${\boldsymbol {x}}$ が代入されたとして $\theta$ の関数とみなしている）。
スコア関数は、尤度関数の自然対数をとってから $\theta$ で偏微分したものである。

{\frac {\partial }{\partial \theta }}\ln f_{n}({\boldsymbol {x}};\theta )

これらはいずれも実数値関数であるので、

フィッシャー情報量も実数値であり、

I(\theta )=\operatorname {E} \left[\left({\frac {\partial }{\partial \theta }}\ln f_{n}({\boldsymbol {X}};\theta )\right)^{2}\right]

となる。

本記事でここまでに述べた事柄は、次の置き換えをすれば基本的に全て同じ形式で成り立つ。

X\to {\boldsymbol {X}},\quad x\to {\boldsymbol {x}},\quad \int _{\mathbb {R} }(\cdots )\,dx\to \int _{\mathbb {R} ^{n}}(\cdots )\,d{\boldsymbol {x}}

特に、確率変数列 ${\boldsymbol {X}}=(X_{1},X_{2},\cdots ,X_{n})$ が独立同分布で、その確率密度関数が $f(x;\theta )$ であるとすると、

尤度関数は $f_{n}({\boldsymbol {x}};\theta )=\prod _{i=1}^{n}f(x_{i};\theta )$
スコア関数は ${\frac {\partial }{\partial \theta }}\ln f_{n}({\boldsymbol {x}};\theta )=\sum _{i=1}^{n}\left({\frac {\partial }{\partial \theta }}\ln f(x_{i};\theta )\right)$
フィッシャー情報量は

{\begin{aligned}I(\theta )&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f_{n}({\boldsymbol {X}};\theta )\right]\\&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\sum _{i=1}^{n}\{\ln f(X_{i};\theta )\}\right]\\&=-\sum _{i=1}^{n}\left(\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\{\ln f(X;\theta )\}\right]\right)\\&=-n\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]\end{aligned}}

となる。

例

多変量正規分布

平均値ベクトル ${\boldsymbol {\mu }}({\boldsymbol {\theta }})$ 、分散共分散行列 ${\boldsymbol {C}}({\boldsymbol {\theta }})$ が未知母数ベクトル ${\boldsymbol {\theta }}$ で定まるような、一般的な d 次元正規分布 $N_{d}\left({\boldsymbol {\mu }}({\boldsymbol {\theta }}),{\boldsymbol {C}}({\boldsymbol {\theta }})\right)$ の場合、

フィッシャー情報行列の成分は^[9]、

I_{m,k}={\frac {\partial {\boldsymbol {\mu }}^{T}}{\partial \theta _{m}}}{\boldsymbol {C}}^{-1}{\frac {\partial {\boldsymbol {\mu }}}{\partial \theta _{k}}}+{\frac {1}{2}}\operatorname {tr} \left({\boldsymbol {C}}^{-1}{\frac {\partial {\boldsymbol {C}}}{\partial \theta _{m}}}{\boldsymbol {C}}^{-1}{\frac {\partial {\boldsymbol {C}}}{\partial \theta _{k}}}\right)

ここで "tr" は行列のトレースを表す。

より簡単な例として、平均 $\theta$ が未知で分散 $\sigma ^{2}$ が既知の正規分布から、独立に $d$ 回抽出してえられる標本量ベクトルを $\mathbf {W} _{d}$ とする。

\mathbf {W} _{d}\sim N_{d}\left(\theta {\boldsymbol {1}},\sigma ^{2}{\boldsymbol {I}}\right)

ここで ${\boldsymbol {1}}$ は 1 を d 個並べたベクトル、 ${\boldsymbol {I}}$ は d 次単位行列である。未知母数が1つなのでフィッシャー情報量は

I(\theta )=\left({\frac {\partial {\boldsymbol {\mu }}(\theta )}{\partial \theta }}\right)^{T}{\boldsymbol {C}}^{-1}\left({\frac {\partial {\boldsymbol {\mu }}(\theta )}{\partial \theta }}\right)=\sum _{i=1}^{d}{\frac {1}{\sigma ^{2}}}={\frac {d}{\sigma ^{2}}}

とスカラーで与えられ、クラメール・ラオの下限は

\operatorname {Var} ({\hat {\theta }})\geq {\frac {\sigma ^{2}}{d}}

平均が既知の正規分布の場合

$X,\{X_{i}\}_{i}$ を、平均 $\mu$ が既知、分散 $\sigma ^{2}$ が未知の正規分布に従う独立な確率変数（列）だとする。次のような統計量を考えよう：

T={\frac {\sum _{i=1}^{n}(X_{i}-\mu )^{2}}{n}}

このとき $\operatorname {E} \left[T\right]=\sigma ^{2}$ より、 $T$ は $\sigma ^{2}$ の不偏推定量になる。

$T$ の分散は、

\operatorname {Var} (T)={\frac {\operatorname {Var} (X-\mu )^{2}}{n}}={\frac {1}{n}}\left[\operatorname {E} \left[(X-\mu )^{4}\right]-\left(\operatorname {E} \left[(X-\mu )^{2}\right]\right)^{2}\right]

（2番目の等号は分散の定義）。第1項は正規分布の4次の中心モーメントであり、

3(\sigma ^{2})^{2}

に等しい。第2項は分散の2乗、つまり

(\sigma ^{2})^{2}

である。よって

\operatorname {Var} (T)={\frac {2(\sigma ^{2})^{2}}{n}}

一方フィッシャー情報量については、まず、観測1回あたりのスコア関数 $V$ が尤度関数 $L$ から次のように計算できる。

{\begin{aligned}V&={\frac {\partial }{\partial (\sigma ^{2})}}\ln L(\sigma ^{2},X)\\&={\frac {\partial }{\partial (\sigma ^{2})}}\ln \left[{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(X-\mu )^{2}/{2\sigma ^{2}}}\right]={\frac {(X-\mu )^{2}}{2(\sigma ^{2})^{2}}}-{\frac {1}{2\sigma ^{2}}}\end{aligned}}

最後の等号は簡単な計算でわかる。この情報量は、

V

をもう一度偏微分してから平均をとり、マイナス1倍したものに等しい。

{\begin{aligned}I&=-\operatorname {E} \left[{\frac {\partial V}{\partial (\sigma ^{2})}}\right]=-\operatorname {E} \left[-{\frac {(X-\mu )^{2}}{(\sigma ^{2})^{3}}}+{\frac {1}{2(\sigma ^{2})^{2}}}\right]\\&={\frac {\sigma ^{2}}{(\sigma ^{2})^{3}}}-{\frac {1}{2(\sigma ^{2})^{2}}}={\frac {1}{2(\sigma ^{2})^{2}}}\end{aligned}}

n

回の独立な観測の情報量は、これを単純に

n

倍したものになり、

I_{n}={\frac {n}{2(\sigma ^{2})^{2}}}

クラメール・ラオの不等式は $\operatorname {Var} (T)\geq {\frac {1}{I_{n}}}$ だが、この場合は等号が成り立っているため、推定量が有効（英語版）であることがわかる。

不偏でない推定量を用いれば、分散及び平均二乗誤差をより小さくすることもできる。例えば $T_{b}={\frac {\sum _{i=1}^{n}(X_{i}-\mu )^{2}}{n+2}}$ とすれば、分散は明らかにより小さくなる。実際

\operatorname {Var} (T_{b})={\frac {2n(\sigma ^{2})^{2}}{(n+2)^{2}}}<\operatorname {Var} (T)

ここで偏りは $-b(\sigma ^{2})=\sigma ^{2}-\operatorname {E} [T_{b}]=\left(1-{\frac {n}{n+2}}\right)\sigma ^{2}={\frac {2\sigma ^{2}}{n+2}}$ であり、平均二乗誤差は、『（平均二乗誤差(MSE)）＝（分散）＋（偏りの2乗）』の分解式から