Summarize Timeline Top Qs Fact Check
ここでは、母数が1つ・推定量が不偏である場合から始めて、いくつかのかなり一般的な場合へと拡張していく。どのバージョンでもある種の正規性の仮定をおくが、それはほとんどの「普通のふるまいをする」確率分布については成り立つものである。この条件については後述する。
何らかの確率密度関数
f
(
x
;
θ
)
{\displaystyle f(x;\theta )}
に従って分布する量
x
{\displaystyle x}
の観測値から、未知母数
θ
{\displaystyle \theta }
を推定することを考える。このとき、
θ
{\displaystyle \theta }
に対する任意の不偏な推定量
θ
^
{\displaystyle {\hat {\theta }}}
の分散は、フィッシャー情報量
I
(
θ
)
{\displaystyle I(\theta )}
の逆数以上になる:
Var
(
θ
^
)
≥
1
I
(
θ
)
{\displaystyle \operatorname {Var} ({\hat {\theta }})\geq {\frac {1}{I(\theta )}}}
フィッシャー情報量
I
(
θ
)
{\displaystyle I(\theta )}
は
I
(
θ
)
=
E
[
(
∂
ℓ
(
X
;
θ
)
∂
θ
)
2
]
{\displaystyle I(\theta )=\operatorname {E} \left[\left({\frac {\partial \ell (X;\theta )}{\partial \theta }}\right)^{2}\right]}
と定義される。ここで、
ℓ
(
x
;
θ
)
=
ln
(
f
(
x
;
θ
)
)
{\displaystyle \ell (x;\theta )=\ln(f(x;\theta ))}
は尤度 の自然対数 をとったもの(なお
∂
ℓ
(
x
;
θ
)
∂
θ
{\displaystyle {\frac {\partial \ell (x;\theta )}{\partial \theta }}}
をスコア関数 (英語版 ) という)で、
E
{\displaystyle \operatorname {E} }
は平均を表す。
不偏推定量
θ
^
{\displaystyle {\hat {\theta }}}
の有効度は、推定量の分散がこの下限にどの程度接近しているかを測る指標で、次のように定義される。
e
(
θ
^
)
=
I
(
θ
)
−
1
Var
(
θ
^
)
{\displaystyle e({\hat {\theta }})={\frac {I(\theta )^{-1}}{\operatorname {Var} ({\hat {\theta }})}}}
不偏推定量の分散の下限値を、実際の分散で割った値、ともいえる。クラメール・ラオの下限より
e
(
θ
^
)
≤
1
{\displaystyle e({\hat {\theta }})\leq 1}
となる。
より一般に、確率変数
X
{\displaystyle X}
の関数
T
(
X
)
{\displaystyle T(X)}
を用いて、母数の関数
ψ
(
θ
)
{\displaystyle \psi (\theta )}
を推定することを考える。
E
[
T
(
X
)
]
=
ψ
(
θ
)
{\displaystyle \operatorname {E} \left[T(X)\right]=\psi (\theta )}
であるとする。このときの分散の下限は、
Var
(
T
)
≥
[
ψ
′
(
θ
)
]
2
I
(
θ
)
{\displaystyle \operatorname {Var} (T)\geq {\frac {[\psi '(\theta )]^{2}}{I(\theta )}}}
ここで
ψ
′
(
θ
)
{\displaystyle \psi '(\theta )}
は
ψ
(
θ
)
{\displaystyle \psi (\theta )}
の
θ
{\displaystyle \theta }
による微分、
I
(
θ
)
{\displaystyle I(\theta )}
はフィッシャー情報量である。
母数
θ
{\displaystyle \theta }
の推定量
θ
^
{\displaystyle {\hat {\theta }}}
に
b
(
θ
)
=
E
[
θ
^
]
−
θ
{\displaystyle b(\theta )=\operatorname {E} [{\hat {\theta }}]-\theta }
だけの偏りがあるとする。
ψ
(
θ
)
=
b
(
θ
)
+
θ
{\displaystyle \psi (\theta )=b(\theta )+\theta }
と置いて前項の結果を使うと、
Var
(
θ
^
)
≥
[
1
+
b
′
(
θ
)
]
2
I
(
θ
)
{\displaystyle \operatorname {Var} ({\hat {\theta }})\geq {\frac {[1+b'(\theta )]^{2}}{I(\theta )}}}
不偏のときの不等式は、
b
(
θ
)
=
0
{\displaystyle b(\theta )=0}
とした特別な場合である。
分散を小さくすることだけを考えるなら、定数関数となる「推定量」をとれば、分散はゼロである。しかし上記の式から、推定量の平均二乗誤差には
E
[
(
θ
^
−
θ
)
2
]
≥
[
1
+
b
′
(
θ
)
]
2
I
(
θ
)
+
b
(
θ
)
2
{\displaystyle \operatorname {E} \left[({\hat {\theta }}-\theta )^{2}\right]\geq {\frac {[1+b'(\theta )]^{2}}{I(\theta )}}+b(\theta )^{2}}
という下限が存在することになる。ここで、平均二乗誤差の標準的な分解式
MSE
(
θ
^
)
:=
E
[
(
θ
^
−
θ
)
2
]
=
E
[
(
θ
^
−
E
[
θ
^
]
)
2
]
+
(
E
[
θ
^
]
−
θ
)
2
{\displaystyle \operatorname {MSE} ({\hat {\theta }}):=\operatorname {E} \left[({\hat {\theta }}-\theta )^{2}\right]=\operatorname {E} \left[\left({\hat {\theta }}-\operatorname {E} [{\hat {\theta }}]\right)^{2}\right]+\left(\operatorname {E} [{\hat {\theta }}]-\theta \right)^{2}}
を用いた。
注意 :もし
1
+
b
′
(
θ
)
<
1
{\displaystyle 1+b'(\theta )<1}
であれば、不偏のときのクラメール・ラオの下限
1
/
I
(
θ
)
{\displaystyle 1/I(\theta )}
を下回ることもある。例えば、後述する例では、
1
+
b
′
(
θ
)
=
n
n
+
2
<
1
{\displaystyle 1+b'(\theta )={\frac {n}{n+2}}<1}
となる。
クラメール・ラオの限界を、母数が複数の場合にも拡張しよう。母数ベクトル を
θ
=
(
θ
1
,
θ
2
,
…
,
θ
d
)
T
∈
R
d
{\displaystyle {\boldsymbol {\theta }}=\left(\theta _{1},\theta _{2},\dots ,\theta _{d}\right)^{T}\in \mathbb {R} ^{d}}
とし(右肩の T は転置を表す(以下同じ))、それによって決まる確率密度関数
f
(
x
;
θ
)
{\displaystyle f(x;{\boldsymbol {\theta }})}
を考える。
f
{\displaystyle f}
は後述の正規性の条件をみたすものとする。
フィッシャー情報行列 は、
d
×
d
{\displaystyle d\times d}
行列で、その成分
I
m
,
k
{\displaystyle I_{m,k}}
が
I
m
,
k
=
E
[
∂
∂
θ
m
ln
f
(
x
;
θ
)
∂
∂
θ
k
ln
f
(
x
;
θ
)
]
=
−
E
[
∂
2
∂
θ
m
∂
θ
k
ln
f
(
x
;
θ
)
]
{\displaystyle {\begin{aligned}I_{m,k}&=\operatorname {E} \left[{\frac {\partial }{\partial \theta _{m}}}\ln f\left(x;{\boldsymbol {\theta }}\right){\frac {\partial }{\partial \theta _{k}}}\ln f\left(x;{\boldsymbol {\theta }}\right)\right]\\&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta _{m}\partial \theta _{k}}}\ln f\left(x;{\boldsymbol {\theta }}\right)\right]\end{aligned}}}
で定まる行列のことである。
T
(
X
)
{\displaystyle {\boldsymbol {T}}(X)}
を、母数ベクトルの任意の推定量としよう:
T
(
X
)
=
(
T
1
(
X
)
,
…
,
T
d
(
X
)
)
T
{\displaystyle {\boldsymbol {T}}(X)=(T_{1}(X),\ldots ,T_{d}(X))^{T}}
。ここで、各成分の平均を並べた平均ベクトル
E
[
T
(
X
)
]
{\displaystyle \operatorname {E} [{\boldsymbol {T}}(X)]}
を
ψ
(
θ
)
{\displaystyle {\boldsymbol {\psi }}({\boldsymbol {\theta }})}
と記す。
このとき、
T
(
X
)
{\displaystyle {\boldsymbol {T}}(X)}
の分散共分散行列 に対するクラメール・ラオの限界は、
Cov
(
T
(
X
)
)
≥
∂
ψ
(
θ
)
∂
θ
(
[
I
(
θ
)
]
−
1
∂
ψ
(
θ
)
∂
θ
)
T
{\displaystyle \operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\geq {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}}}\left([I\left({\boldsymbol {\theta }}\right)]^{-1}{\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}}}\right)^{T}}
となる。ここで、
行列に対する不等式
A
≥
B
{\displaystyle A\geq B}
は、行列の差
A
−
B
{\displaystyle A-B}
が非負定値 であるということである。
∂
ψ
(
θ
)
/
∂
θ
{\displaystyle \partial {\boldsymbol {\psi }}({\boldsymbol {\theta }})/\partial {\boldsymbol {\theta }}}
はヤコビ行列 (
i
j
{\displaystyle ij}
成分が
∂
ψ
i
(
θ
)
/
∂
θ
j
{\displaystyle \partial \psi _{i}({\boldsymbol {\theta }})/\partial \theta _{j}}
)である。
もし
T
(
X
)
{\displaystyle {\boldsymbol {T}}(X)}
が
θ
{\displaystyle {\boldsymbol {\theta }}}
の不偏推定量であれば(つまり
ψ
(
θ
)
=
θ
{\displaystyle {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)={\boldsymbol {\theta }}}
であれば)クラメール・ラオの限界は
Cov
(
T
(
X
)
)
≥
I
(
θ
)
−
1
{\displaystyle \operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\geq I\left({\boldsymbol {\theta }}\right)^{-1}}
のようになる。フィッシャー情報行列の逆行列 を計算するのが面倒な場合は、単に対応する対角成分の逆数をとることで、(より緩いかもしれないが)1つの下限が得られる[ 8] 。
Var
(
T
m
(
X
)
)
=
[
Cov
(
T
(
X
)
)
]
m
m
≥
[
I
(
θ
)
−
1
]
m
m
≥
(
[
I
(
θ
)
]
m
m
)
−
1
{\displaystyle \operatorname {Var} (T_{m}(X))=\left[\operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\right]_{mm}\geq \left[I\left({\boldsymbol {\theta }}\right)^{-1}\right]_{mm}\geq \left(\left[I\left({\boldsymbol {\theta }}\right)\right]_{mm}\right)^{-1}}
クラメール・ラオの不等式が成り立つための確率密度関数
f
(
x
;
θ
)
{\displaystyle f(x;\theta )}
と推定量
T
(
X
)
{\displaystyle T(X)}
に関する2つの弱い十分条件は、次のとおりである:
フィッシャー情報量が常に定義されていること。言い換えると、次式を
x
{\displaystyle x}
で積分した値が有限値として存在すること。
∂
∂
θ
ln
f
(
x
;
θ
)
{\displaystyle {\frac {\partial }{\partial \theta }}\ln f(x;\theta )}
T
{\displaystyle T}
の期待値について、
x
{\displaystyle x}
についての積分と、
θ
{\displaystyle \theta }
についての偏微分が交換可能である、つまり
∂
∂
θ
[
∫
R
T
(
x
)
f
(
x
;
θ
)
d
x
]
=
∫
R
T
(
x
)
[
∂
∂
θ
f
(
x
;
θ
)
]
d
x
{\displaystyle {\frac {\partial }{\partial \theta }}\left[\int _{\mathbb {R} }T(x)f(x;\theta )\,dx\right]=\int _{\mathbb {R} }T(x)\left[{\frac {\partial }{\partial \theta }}f(x;\theta )\right]\,dx}
が、右辺が存在する限り成り立つこと。
この条件は、以下のいずれかの場合が成り立つことをもって確認されることが多い:
関数
f
(
x
;
θ
)
{\displaystyle f(x;\theta )}
は、
θ
{\displaystyle \theta }
に依らない有界な関数の台 (非ゼロとなる定義域)を持つ。
θ
{\displaystyle \theta }
に依らない可積分関数
g
(
x
)
{\displaystyle g(x)}
が存在して
|
T
(
x
)
∂
∂
θ
f
(
x
;
θ
)
|
{\displaystyle \left|T(x){\frac {\partial }{\partial \theta }}f(x;\theta )\right\vert }
を上から抑える。つまり、
|
T
(
x
)
∂
∂
θ
f
(
x
;
θ
)
|
≤
g
(
x
)
(
∀
x
,
∀
θ
)
,
∫
R
g
(
x
)
d
x
<
∞
{\displaystyle \left|T(x){\frac {\partial }{\partial \theta }}f(x;\theta )\right\vert \leq g(x)\quad (\forall x,\forall \theta ),\quad \int _{\mathbb {R} }g(x)\,dx<\infty }
f
(
x
;
θ
)
{\displaystyle f(x;\theta )}
が
θ
{\displaystyle \theta }
で2階偏微分可能であるとすると、フィッシャー情報量は
I
(
θ
)
=
E
[
(
∂
∂
θ
ln
f
(
X
;
θ
)
)
2
]
=
∫
R
f
(
x
;
θ
)
1
(
f
(
x
;
θ
)
)
2
(
∂
f
(
x
;
θ
)
∂
θ
)
2
d
x
=
−
∫
R
f
(
x
;
θ
)
f
(
x
;
θ
)
∂
f
(
x
;
θ
)
∂
θ
−
(
∂
f
(
x
;
θ
)
∂
θ
)
2
(
f
(
x
;
θ
)
)
2
d
x
=
−
∫
R
f
(
x
;
θ
)
(
∂
2
∂
θ
2
ln
f
(
x
;
θ
)
)
d
x
=
−
E
[
∂
2
∂
θ
2
ln
f
(
X
;
θ
)
]
{\displaystyle {\begin{aligned}I(\theta )&=\operatorname {E} \left[\left({\frac {\partial }{\partial \theta }}\ln f(X;\theta )\right)^{2}\right]\\&=\int _{\mathbb {R} }f(x;\theta ){\frac {1}{\left(f(x;\theta )\right)^{2}}}\left({\frac {\partial f(x;\theta )}{\partial \theta }}\right)^{2}\,dx\\&=-\int _{\mathbb {R} }f(x;\theta ){\frac {f(x;\theta ){\frac {\partial f(x;\theta )}{\partial \theta }}-\left({\frac {\partial f(x;\theta )}{\partial \theta }}\right)^{2}}{\left(f(x;\theta )\right)^{2}}}\,dx\\&=-\int _{\mathbb {R} }f(x;\theta )\left({\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(x;\theta )\right)\,dx\\&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]\end{aligned}}}
(3番目の等号の箇所で
∫
R
∂
f
(
x
;
θ
)
∂
θ
d
x
=
∂
∂
θ
∫
R
f
(
x
;
θ
)
d
x
=
∂
∂
θ
(
1
)
=
0
{\displaystyle \int _{\mathbb {R} }{\frac {\partial f(x;\theta )}{\partial \theta }}\,dx={\frac {\partial }{\partial \theta }}\int _{\mathbb {R} }f(x;\theta )\,dx={\frac {\partial }{\partial \theta }}(1)=0}
であることを用いた)
と変形でき、クラメール・ラオの不等式は次のようにも書ける。
Var
(
θ
^
)
≥
1
I
(
θ
)
=
1
−
E
[
∂
2
∂
θ
2
ln
f
(
X
;
θ
)
]
{\displaystyle \operatorname {Var} ({\hat {\theta }})\geq {\frac {1}{I(\theta )}}={\frac {1}{-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]}}}
こちらの公式の方が下限を評価するのにより有用な場合がある。