棄却サンプリング法

棄却サンプリング法（ききゃくサンプリングほう、英語: Rejection sampling）とは、数値解析や計算機統計学（英語版）において確率分布からの観測点を生成する上での基礎的な技術の1つである。同じサンプリング法を、採択棄却法（さいたくききゃくほう、acceptance-rejection method）や採択棄却アルゴリズム（さいたくききゃくアルゴリズム、accept-reject algorithm）と呼ぶこともある。この手法は $\mathbb {R} ^{m}$ 上の任意の確率密度関数に対して適応することができる。

棄却サンプリング法は、一次元である確率密度関数 $f$ に従う確率変数 $X$ をサンプリングする際の手順として、まず二次元空間上での連続一様分布からのサンプル $(x,y)$ を生成し、次に $0\leq y\leq f(x)$ となるような点だけを保持し、残ったサンプルの $x$ 座標だけをとるという手順を利用することが可能であるという考察に基づいている^[1]^[2]^[3]。なお、この特性の利用はさらに高次元へと拡張できる。

理論

棄却サンプリングでは、任意の確率密度関数 $f(x)$ に従う目的確率変数 $X$ のサンプリングを、提案確率分布 $g(y)$ に従う確率変数 $Y$ のサンプルを用いて行う。具体的には、 $X$ を直接サンプルする代わりに、 $Y$ のサンプルを利用して、そのサンプルを確率 $f(x)/(Mg(x))$ で受け入れるという手順を繰り返すことにより、 $X$ のサンプルを入手することができる。ここで、 $M<\infty$ は定数であり、 $X$ の台全体で $f(x)/g(x)$ の上界である。言い換えれば、 $M$ は全ての $x$ に対して $f(x)\leq Mg(x)$ を満たさなければならない。なお、この条件により $Y$ の台は $X$ の台を含んでいなければならない。すなわち、 $f(x)>0$ となるような $x$ に対して $g(x)>0$ でなければならない。

${\textstyle (x,v=u\cdot Mg(x))}$ のペアをサンプルすると、 $v$ は0から ${\textstyle Mg(x)}$ までの一様分布となる。ここで ${\textstyle u<f(x)/(Mg(x))}$ となる $(x,v)$ のペアだけを採択することで、 $(x,v)$ は $f(x)$ 以下の領域からの一様分布からのサンプルとみなすことができる。したがって、 $x$ の周辺分布が $f(x)$ となっており、この手法の有効性が示される。

このことから、十分な反復回数のもとで、このアルゴリズムは目的分布 $f(x)$ からのサンプルを生成できる。

この手法はモンテカルロ法一般的な分野に応用される。例として、マルコフ連鎖モンテカルロ法では提案分布を利用して目的分布からのサンプリングを行う。また、メトロポリス・ヘイスティングス法の基礎をなす。

二次元空間からの採択確率は、提案されたサンプルのうち採択されるものの割合であり、これは ${\begin{aligned}\mathbb {P} \left(U\leq {\frac {f(Y)}{Mg(Y)}}\right)&=\operatorname {E} _{U,Y}\left[\mathbf {1} _{\left[U\leq {\frac {f(Y)}{Mg(Y)}}\right]}\right]\\&=\operatorname {E} _{Y}\left[\operatorname {E} _{U}\left[\mathbf {1} _{\left[U\leq {\frac {f(Y)}{Mg(Y)}}\right]}|Y\right]\right]\\&=\int \int _{u=0}^{u={\frac {f(y)}{Mg(y)}}}g(y){\text{d}}u{\text{d}}y\\&=\int {\frac {f(y)}{Mg(y)}}g(y){\text{d}}y\\&=\int {\frac {f(y)}{M}}{\text{d}}y\\&={\frac {1}{M}}\end{aligned}}$ と計算される。ここで、 $U\sim \mathrm {Unif} (0,1)$ であり、 $y$ は提案分布 $g(\cdot )$ に従う確率変数 $Y$ のサンプルとした。なお、最後の式変形の途中で $Y$ の台が $X$ の台を含んでいることを用いている。

$Y$ からのサンプルで $X$ のサンプルとして採択されるサンプルを得る上で必要となるサンプルの数は確率 $1/M$ の幾何分布に従い、その期待値は $M$ となる。直感的には $M$ は必要となる反復回数の期待値であり、これがアルゴリズムの計算複雑度の尺度となる。

上の式は、 $M={\frac {1}{\mathbb {P} \left(U\leq {\frac {f(Y)}{Mg(Y)}}\right)}}$ と書ける。 $M$ は定義上 ${\textstyle 1\leq M<\infty }$ を満たすため、 ${\textstyle \mathbb {P} \left(U\leq {\frac {f(Y)}{Mg(Y)}}\right)}$ は $[0,1]$ に含まれ、したがって確率の公理を満たす。 $M$ は ${\textstyle f(x)/g(x)}$ の上界であるので、この比率の最大値が小さいほど採択確率も大きくなる。実用上は、 $M$ として $1$ に近い値が好まれるが、これは平均的に棄却されるサンプルの数が少なくなるので、結果としてアルゴリズムの反復回数が減るためである。この意味で、 $M$ は小さければ小さいほど好ましい。全領域で $f(x)\leq Mg(x)$ を満たしながら $M$ を小さくするには、一般的には提案分布 $g(x)$ と目的分布 $f(x)$ がある意味で似ている必要がある。なお、実際には $M=1$ の場合は $f(x)=g(x)$ を意味することになり、したがって通常のサンプリングに一致する。

棄却サンプリングは、 $f(x)$ が直接サンプリングすることが困難な場合に頻繁に利用される。棄却サンプリング1回の反復あたり、提案分布からのサンプリング、一様分布からのサンプリング、 $f(x)/(Mg(x))$ の評価が要求される。そのため、これらの計算コストの $M$ 倍 (1個の採択されるサンプルが得られるまでに必要な反復回数の期待値)が他の手法の計算コストより小さい場合、棄却サンプリング法が効率の良い選択肢となる。

アルゴリズム

密度 $f$ をもつ確率変数 $X$ のサンプルを、密度 $g$ をもつ確率変数 $Y$ からサンプルするアルゴリズムとして、ジョン・フォン・ノイマンに用いられ^[4]、その起源がビュフォンとその針^[5]にまで遡るアルゴリズムは以下の通り:

確率変数 $Y$ のサンプル $y$ と、単位区間上の連続一様分布からのサンプル $u$ をとる。
$u$ $u$ と ${\textstyle f(y)/Mg(y)}$ ${\textstyle f(y)/Mg(y)}$ の大小を比較する。
- ${\textstyle f(y)/Mg(y)}$ の方が大きい場合、 $f$ からのサンプルとして $y$ を採択する。
- そうでなければ、提案された $y$ を棄却し、サンプリングのステップに戻る。

このアルゴリズムでは、１つのサンプルを得るために平均 $M$ 回の反復を要求される^[6]。

棄却サンプリング法

理論

アルゴリズム

関連項目

脚注

Related Articles