ベータ二項分布
From Wikipedia, the free encyclopedia
| 母数 |
n ∈ N0 — 試行回数 (実数) (実数) |
|---|---|
| 台 | x ∈ { 0, …, n } |
| 確率質量関数 |
ただし はベータ関数 |
| 累積分布関数 |
ただしは次の一般化された超幾何関数: |
| 期待値 | |
| 分散 | |
| 歪度 | |
| 超過尖度 | 本文参照 |
| モーメント母関数 |
ただしは超幾何関数 |
| 特性関数 | |
ベータ二項分布(ベータにこうぶんぷ 英: Beta-binomial distribution)は、確率論や統計学における離散確率分布の一種。非負整数からなる有限の台を持ち、未知(またはランダム)の成功確率のもとでのベルヌーイ試行を行った場合の成功回数の分布を記述する際に出現する。より具体的には、二項分布における各試行の成功確率が試行ごとにベータ分布に従って決定される場合の成功回数が従う分布である。 ベイズ統計学、経験ベイズ法などにおいては、二項型多項式列に従い分布するデータの過分散を捕捉する際に頻繁に利用される。
ベータ二項分布は、1次元に限定されたディリクレ多項分布とみなせる。これは、二項分布とベータ分布が、それぞれ多項分布とディリクレ分布を単変量としたものであるからである。 母数 がともに正の整数である場合、この分布は負の超幾何分布と呼ばれる分布に一致する。
複合分布として
ベータ分布は二項分布の共役事前分布である。この事実から、解析的に取り扱いやすい複合確率分布が得られる。この分布では、二項分布の成功確率 自体をベータ分布に従う確率変数とみなす。このような状況のもとで、次の 回の試行での成功数 に興味がある場合、 の従う確率密度関数は次で与えられる:
この分布はベータ二項分布に他ならない。なお、ベータ関数の性質を利用することで、この確率密度関数は次のようにも記述できる:
壺問題として
母数 がともに正の整数の場合、ベータ二項分布は壺問題、特にポリアの壺問題といわれる問題にも出現する。具体的には、最初に 個の赤玉と 個の白玉を含む壺が用意されている場合に、「壺から無作為に玉を1つ取り出し、取り出した玉と同色の玉を2つ壺に戻す」という作業を 回繰り返したときの、赤玉を累計で 回取り出す確率 はベータ二項分布となる。実際、赤玉を累計で 回取り出すような試行結果は 通りあるが、これらの試行結果は全て同じ確率で出現するので、は
と計算できる。なお、非負なる整数 について が成立することを用いた。
一方、無作為抽出により取り出した玉以外の玉を壺に戻さない場合、赤玉を累計で 回取り出す確率は二項分布に従う。また、無作為抽出により取り出した玉を壺に戻さない場合、赤玉を累計で 回取り出す確率は超幾何分布に従う。
モーメントと性質
最初の3つのモーメントは次で与えられる:
そして、超過尖度は次で与えられる:
ベータ分布の平均値を で表すとすれば、示唆的に、この分布の平均値は
で表される。一方、分散は
となり、同じ平均値をもつ二項分布のそれよりも必ず大きくなる。ここで で定義された正のパラメータは級内相関(英: intraclass correlation)と呼ばれ、ベータ二項分布が二項分布の分散よりも大きい分散をとることを可能とするパラメータである。 なお、 の場合はベータ二項分布と二項分布を区別することが原理上不可能であり、したがって分散も同じ値となる。
階乗モーメント
r 個目の階乗モーメント、すなわちの期待値は
- である。
点推定
モーメント法
統計学におけるモーメント法では、ベータ二項分布の最初の2つのモーメント が、標本から計算されるそれらに一致すると仮定して、ベータ二項分布の2つの母数 を推定する。この手法のもとでは、 の推定値として以下が得られる:
これらの推定値は、 の値によっては負の値を取る場合がある。その場合、データの分散がベータ二項分布で扱うには小さすぎることの証拠となり、他の分布(二項分布や超幾何分布など)でのフィットの方が適していることが示される。
最尤推定
最尤推定を解析的に行うことは非実用的だが、確率質量関数がありふれた関数(ガンマ関数またはベータ関数)であるため、直接数値的な最適化を行うことができる。
具体例:性比の不均一性
以下のデータは、19世紀ザクセン州の病院記録から抽出した6115世帯における、家族規模13世帯の最初の12人目の子供のうち男子の数を示す(Sokal and Rohlf, p. 59 from Lindsey)。ただし、希望する性別が生まれた時点で家族が非ランダムに子作りを中止する効果を相殺するため、13人目の子供のデータは含まれていない。
| 男児の数 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
| 世帯数 | 3 | 24 | 104 | 286 | 670 | 1033 | 1343 | 1112 | 829 | 478 | 181 | 45 | 7 |
最初の2つの標本モーメントおよび は
であるので、モーメント法による推定のもとでは
が推定値として得られる。一方、最尤推定のもとでは、数値的最適化によって
が得られる。これらのもとで最大尤度は
と計算され、赤池情報量規準(AIC)が
と求まる。一方、単純な二項分布を仮定して同様にAICを計算すると、最尤推定での男児の出生確率 と が求まる。したがって、ベータ二項分布によるフィッティングの方がより小さいAICを与えることとなり、ベータ二項分布の方がよりデータにフィットしていると言える。すなわち、データには過分散の証拠があると言える。なお、理論的な裏付けとして、哺乳類の雌が産む子供の性比は個体の状況に依存するという仮説(トリヴァース・ウィラード仮説)が提唱されている。
データおよびベータ二項分布・二項分布による(最尤推定での)期待値を以下の表に示した。ベータ二項分布によるフィッティングの効果はより極端な値で顕著である。
| 男児の数 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
| 世帯数 | 3 | 24 | 104 | 286 | 670 | 1033 | 1343 | 1112 | 829 | 478 | 181 | 45 | 7 |
| ベータ二項分布での予測 | 2.3 | 22.6 | 104.8 | 310.9 | 655.7 | 1036.2 | 1257.9 | 1182.1 | 853.6 | 461.9 | 177.9 | 43.8 | 5.2 |
| 二項分布での予測 | 0.9 | 12.1 | 71.8 | 258.5 | 628.1 | 1085.2 | 1367.3 | 1265.6 | 854.2 | 410.0 | 132.8 | 26.1 | 2.3 |
ベイズ統計学における役割
ベータ二項分布は、ベイズ推定によりベルヌーイ試行の成功確率 をデータから推定する場合に顕著な役割を果たす。を成功確率が未知なベルヌーイ分布からの独立同分布サンプルであるとする。いま、 に関する我々の知識が(ベイズ統計学的な意味で)不明瞭であるとして、その事前分布をベータ分布で与えるとする: 。 で表せば、実際に を観測する前の段階で予測される の分布(事前予測分布)は、確率分布の複合によりベータ二項分布で与えられる:
実際に を観測した後の の事後分布は
であり、事後分布もベータ分布であることがわかる。
再び確率分布の複合を行うことで、このベルヌーイ試行をさらに独立に 回行った際の累計成功回数 に関して以下が成立する:
確率変数の生成
ベータ二項分布に従う確率変数 は容易に生成できる。具体的には、まず をベータ分布 からサンプルした後、 を二項分布 から生成すればよい。この手法は、この分布がベータ分布と二項分布の複合分布であることに依拠している。