パチンコ配分モデル

From Wikipedia, the free encyclopedia

パチンコ配分モデル(Pachinko Allocation Model、略称:PAM)は、機械学習および自然言語処理におけるトピックモデルの一種である。トピックモデルとは、文書群に内在する潜在的なテーマ構造を自動的に発見するためのアルゴリズム群である[1]

PAMは、潜在的ディリクレ配分法(LDA)などの従来のトピックモデルを拡張し、単語間の共起関係だけでなく、トピック間の相関関係もモデル化できる点が特徴である。この手法により、PAMはLDAよりも柔軟性が高く、表現力にも優れているとされる[2]

PAMはもともと自然言語処理の分野で提案・実装されたが、バイオインフォマティクスなど他分野への応用も期待されている。このモデル名は、日本の娯楽「パチンコ」に由来する。パチンコ台において、金属球が多数のピンを通って複雑な経路をたどり、最終的に下部のさまざまなポケットに落ちる構造になっている点が、PAMの多層的・階層的な構造と類似している[3]

PAMは、アンドリュー・マッカラム英語版とリー・ウェイによって2006年に初めて提案された[3]

その後、2007年にデヴィッド・ミムノを加えたチームにより「階層型パチンコ割当モデル」(Hierarchical PAM)が開発された。[4]

同年、PAMに階層ディリクレ過程(HDP)を用いた非パラメトリックベイズモデルの拡張も提案された。[2] このアルゴリズムは、マサチューセッツ大学アマースト校のマッカラムらのグループによって開発・公開されているオープンソースJavaライブラリ「MALLET英語版」にも実装されている。

モデル

PAMは、語彙(V)とトピック集合(T)を有向非巡回グラフ(DAG)で接続するモデルである。トピックノードは中間レイヤーに存在し、葉ノードには単語が配置される。

コーパス全体を生成する確率は、各文書の生成確率の積として表される[3]

関連項目

参考文献

外部リンク

Related Articles

Wikiwand AI