確率的潜在意味解析
From Wikipedia, the free encyclopedia

語と文書の共起 を観測とすると、PLSAは各共起の確率を条件付き独立な多項分布の混合として次のようにモデル化する:
ここでは語の属する「トピック」を意味する。トピック数は事前に決定されるハイパーパラメータであり、データから推定されるものではない。
最初の式は「対称モデル」で、語と文書がともにトピックから生成される構造を示している。一方、二番目の式は「非対称モデル」で、文書に対してトピックがまず選ばれ、そこから語が生成される。
このモデルではパラメータの数は であり、文書数に比例して増加する。そのため、PLSAは訓練コーパス上の文書に対しては生成モデルだが、新しい文書の生成モデルとは言えない。
モデルパラメータはEMアルゴリズムによって学習される。
応用
PLSA はフィッシャーカーネルを用いて識別的な文書表現として使用されることもある[1]。
PLSA は、情報検索、情報フィルタリング、自然言語処理、機械学習、バイオインフォマティクス[2] など幅広い分野に応用されている。
拡張
- 階層モデルの拡張
- 生成モデルの拡張:
- 潜在的ディリクレ配分法(LDA) - 文書ごとのトピック分布にディリクレ分布を導入し、PLSAの欠点(新文書を生成できない)を克服する。
- 高次元データへの拡張:PLSAは3変数以上の共起にも拡張可能であり、追加の条件付き分布を導入することで、非負値テンソル因子分解に対応する確率モデルとして利用できる。