パチンコ配分モデル
From Wikipedia, the free encyclopedia
パチンコ配分モデル(Pachinko Allocation Model、略称:PAM)は、機械学習および自然言語処理におけるトピックモデルの一種である。トピックモデルとは、文書群に内在する潜在的なテーマ構造を自動的に発見するためのアルゴリズム群である[1]。
PAMは、潜在的ディリクレ配分法(LDA)などの従来のトピックモデルを拡張し、単語間の共起関係だけでなく、トピック間の相関関係もモデル化できる点が特徴である。この手法により、PAMはLDAよりも柔軟性が高く、表現力にも優れているとされる[2]。
PAMはもともと自然言語処理の分野で提案・実装されたが、バイオインフォマティクスなど他分野への応用も期待されている。このモデル名は、日本の娯楽「パチンコ」に由来する。パチンコ台において、金属球が多数のピンを通って複雑な経路をたどり、最終的に下部のさまざまなポケットに落ちる構造になっている点が、PAMの多層的・階層的な構造と類似している[3]。
PAMは、アンドリュー・マッカラムとリー・ウェイによって2006年に初めて提案された[3]。
その後、2007年にデヴィッド・ミムノを加えたチームにより「階層型パチンコ割当モデル」(Hierarchical PAM)が開発された。[4]
同年、PAMに階層ディリクレ過程(HDP)を用いた非パラメトリックベイズモデルの拡張も提案された。[2] このアルゴリズムは、マサチューセッツ大学アマースト校のマッカラムらのグループによって開発・公開されているオープンソースJavaライブラリ「MALLET」にも実装されている。