超幾何分布
From Wikipedia, the free encyclopedia
性質
- 期待値
- 分散
- 最頻値
- 対称性
例
例えば、赤い玉10個と白い玉20個を混ぜた、計30個の玉を入れた壺の中から5個の球を取り出すとき、赤い玉がちょうど1つである確率は
赤い玉の個数の期待値は
フィッシャーの正確確率検定への応用
元々、N個のビー玉が壺の中に入っていて、そのうち緑玉がK個、赤玉はN-K個であったとする。この中から(目を瞑って)n個のビー玉を非復元抽出で取り出したとする。このとき、(n回の試行のうち)緑玉がk回取り出される確率を求めたい。なお、壺には緑玉と赤玉以外には入っておらず、同色同士の玉は区別できないものとする。
この問題において、「成功」を「緑玉」に、「失敗」を「赤玉」例えることで、超幾何分布の問題に帰着でき、k回成功する確率(即ち、k回緑玉が取り出される確率)は、以下のようになる。
この確率は普通の仮説検定で有意差を表す「p値」とは違い、p値を求めるには(普通の検定と同じように)実際の観測データよりも極端な場合も含めて考えなければならない。また、成功/失敗を検討してはいるが、ビー玉を取り出す毎に壺の中に残されたビー玉の個数は次々に変化し、各試行での成功確率は同じではないため、この問題は二項分布では正確にモデル化できない。
四分割表に対する独立性の検定との対比を取るために、この問題を四分割表で表現することを考える。N,m,nが固定されれば周辺度数(marginal frequency:第3列および第3行の値)は全て固定され、下表のようになる。さらに、O11を確定すれば、残りのO12,O21,O12は確定する。今、ここで、さらに、O11=X=kとすると、下表のように、四分割表の値が全て確定する。
| 緑玉(成功) | 赤玉(失敗) | Row Total | |
|---|---|---|---|
| 壺から取り出された | O11=k | O12=n − k | n |
| 壺に残った | O21=K − k | O22=N + k − n − K | N − n |
| Column Total | K | N − K | N |
例えば、上記の問題において、N=50, K=5、n=10の場合を考える。即ち、壺の中には、元々5個の緑玉と45個の赤玉が入っていたものとする。この壺から(目をつぶって)10個のビー玉を非復元的に取り出すことを考える。
このとき、例えば, k=4であれば、四分割表とP(X=4)は以下のようになる。
| 緑玉(成功) | 赤玉(失敗) | Row Total | |
|---|---|---|---|
| 壺から取り出された | 4 | 6 | 10 |
| 壺に残った | 1 | 39 | 40 |
| Column Total | 5 | 45 | 50 |
さらに、k=5の場合を考える。P(X=5)は以下のようになる。
これらを比較すると、緑玉が5個の取り出される確率は、4個取り出される確率より約35倍低くなることが判る。