周辺尤度

ベイズ統計学
統計学

ベイズの定理
事後確率 = 尤度×事前確率÷証拠
背景
ベイズ推定ベイズ確率ベイズの定理確率の解釈（英語版）根源的蓋然論（英語版）ベルンシュテイン＝フォン・ミーゼスの定理（英語版）ダッチブック論証（英語版）コックスの定理（英語版）クロムウェルの差止め規則（英語版）尤度原理（英語版）等確率の原理最大エントロピー原理
モデル構築
共役事前分布（英語版）ベイズ線形回帰（英語版）階層ベイズモデル(ハイパーパラメータ・超事前分布) ベイジアンネットワーク経験ベイズ法（英語版）
近似手法
マルコフ連鎖モンテカルロ法ラプラスの近似（英語版）変分ベイズ法（英語版）近似ベイズ計算（英語版）ネステッドサンプリング（英語版）
推定量
許容決定規則（英語版）ベイズ推定量（英語版）信用区間最大事後確率推定
モデル評価
ベイズ因子シュワルツ情報量規準事後予測分布
表話編歴

周辺尤度 (しゅうへんゆうど、英語: marginal likelihood)とは、パラメータについて周辺化した尤度のことである。すなわち、尤度関数をパラメータ空間全域で積分した値を指す。ベイズ統計学においては、可能なパラメータすべてを考慮した上で抽出されたサンプルを得られる確率を意味し、これはモデル自体の確率として解釈される。このことから、ベイズ統計の文脈では周辺尤度のことを証拠(英語: evidence)あるいはエビデンスと呼ぶことがある。

周辺尤度はパラメータ空間全体についての積分によって定義される量であるため、直接的にはパラメータに依存しない。モデル比較に注目しない状況では、周辺尤度は単に事後確率を正規化する正規化定数（英語版）に過ぎない。

$\mathbf {X} =(x_{1},\ldots ,x_{n})$ を、パラメータ $\theta$ を持つ確率分布 $p(x|\theta )$ からの独立同分布なデータの集合とする。ここで、パラメータ $\theta$ 自体もさらに別の確率分布 $p(\theta |\alpha )$ に従う確率変数であるとする。このような状況において、周辺尤度 $p(\mathbf {X} \mid \alpha )$ はパラメータ $\theta$ を周辺化した時に $\mathbf {X}$ を得る確率として定義される:

p(\mathbf {X} \mid \alpha )=\int _{\theta }p(\mathbf {X} \mid \theta )\,p(\theta \mid \alpha )\ \operatorname {d} \!\theta

ベイズ統計学の文脈では、上の定義式において $p(\theta \mid \alpha )$ を確率変数 $\theta$ の事前確率、 $p(\mathbf {X} \mid \theta )$ を尤度と呼ぶ。周辺尤度が事後分布 $p(\theta \mid \mathbf {X} ,\alpha )$ の正規化定数であると読み替えることで、周辺尤度の別の表し方として

p(\mathbf {X} \mid \alpha )={\frac {p(\mathbf {X} \mid \theta ,\alpha )p(\theta \mid \alpha )}{p(\theta \mid \mathbf {X} ,\alpha )}}

というものが取れる^[1]。これは $\theta$ に関する恒等式になっている。

古典的な頻度主義統計学では、周辺尤度は別の文脈で出現する。今、 $x$ に関する確率分布のパラメータ $\theta$ が $\theta =(\psi ,\lambda )$ と分割できる状況を考える。ただし、 $\psi$ は興味のあるパラメータであるが、 $\lambda$ は局外母数（英語版）と呼ばれる解析上興味のないパラメータである。もし $\lambda$ に関する確率分布 $p(\lambda |\psi )$ を定義できるのであれば、 $\lambda$ について点推定の値を与えるよりも周辺化した尤度を考える方が好ましい状況がある:

{\displaystyle {\mathcal {L}}(\psi

周辺尤度は一般には計算困難であるが、周辺尤度の解析解が存在する場合も少ないながら存在する。周辺化されるパラメータがデータの確率分布の共役事前分布（英語版）である場合は解析解が存在するケースも多い。そうでなければ、ある種の数値積分が必要となる。数値積分を利用する場合、ガウス求積やモンテカルロ法のような一般的な手法の他にも、ラプラス近似（英語版）、ギブスサンプリング、メトロポリス・ヘイスティングス法、EMアルゴリズムなどの統計学的問題に特化した手法が利用されることがある。

観測データ $\mathbf {X}$ の代わりに単一のデータ点 $x$ に対する確率を定義することもでき、これはベイズ統計学の文脈では事前予測分布と呼ばれる。

応用

ベイズ統計におけるモデル比較

引き続き $\mathbf {X}$ を観測データとする。周辺化されるパラメータを $\theta$ 、 $M$ を $\theta$ の分布を規定するモデルを表す文字とすると、周辺尤度は特定のモデルパラメータ $\theta$ を仮定しない、モデル $M$ を与えた時 $\mathbf {X}$ を得る場合の条件付き確率を記述する。この場合、周辺尤度は

p(\mathbf {X} |M)=\int p(\mathbf {X} \mid \theta ,M)\,p(\theta \mid M)\,\operatorname {d} \!\theta

と記述される。このような文脈において、周辺尤度は「モデルエビデンス」と呼ばれることもある。

この量を複数のモデルに対して計算し、それらの比を取ることで、ベイズ因子と呼ばれる量

${\frac {p(\mathbf {X} |M_{1})}{p(\mathbf {X} |M_{2})}}$

が出現する。この量は、(事前オッズ)×(ベイズ因子)の形で表現される事後オッズ

{\frac {p(M_{1}\mid \mathbf {X} )}{p(M_{2}\mid \mathbf {X} )}}={\frac {p(M_{1})}{p(M_{2})}}\,{\frac {p(\mathbf {X} \mid M_{1})}{p(\mathbf {X} \mid M_{2})}}

にも出現するため、ベイズ統計におけるモデル選択の上で重要である。

応用

ベイズ統計におけるモデル比較

関連項目

出典

参考文献

Related Articles