確率的潜在意味解析

確率的潜在意味解析（かくりつてきせんざいいみかいせき、Probabilistic latent semantic analysis、PLSA、または情報検索の分野では 確率的潜在意味インデキシング（PLSI）とも）は、2モードデータや共起データの解析に用いられる統計的手法である。これは、潜在意味解析（LSA）と同様に、観測された変数の低次元表現を、いくつかの隠れた変数との関連性に基づいて得る方法である。

従来の潜在意味解析が線形代数に基づき、出現頻度表を特異値分解などによって次元削減するのに対し、確率的潜在意味解析は潜在クラスモデルに基づく混合分解を用いる。

語と文書の共起 $(w,d)$ を観測とすると、PLSAは各共起の確率を条件付き独立な多項分布の混合として次のようにモデル化する：

P(w,d)=\sum _{c}P(c)P(d|c)P(w|c)=P(d)\sum _{c}P(c|d)P(w|c)

ここで $c$ は語の属する「トピック」を意味する。トピック数は事前に決定されるハイパーパラメータであり、データから推定されるものではない。

最初の式は「対称モデル」で、語 $w$ と文書 $d$ がともにトピック $c$ から生成される構造を示している。一方、二番目の式は「非対称モデル」で、文書 $d$ に対してトピック $c$ がまず選ばれ、そこから語 $w$ が生成される。

このモデルではパラメータの数は $cd+wc$ であり、文書数に比例して増加する。そのため、PLSAは訓練コーパス上の文書に対しては生成モデルだが、新しい文書の生成モデルとは言えない。

モデルパラメータはEMアルゴリズムによって学習される。

応用

PLSA はフィッシャーカーネルを用いて識別的な文書表現として使用されることもある^[1]。

PLSA は、情報検索、情報フィルタリング、自然言語処理、機械学習、バイオインフォマティクス^[2] など幅広い分野に応用されている。

ただし、PLSA で使用されるアスペクトモデルには過学習の問題があることが指摘されている^[3]。

拡張

階層モデルの拡張
- 非対称型：MASHA（Multinomial ASymmetric Hierarchical Analysis）^[4]
- 対称型：HPLSA（Hierarchical Probabilistic Latent Semantic Analysis）^[5]
生成モデルの拡張：
- 潜在的ディリクレ配分法（LDA） - 文書ごとのトピック分布にディリクレ分布を導入し、PLSAの欠点（新文書を生成できない）を克服する。
高次元データへの拡張：PLSAは3変数以上の共起にも拡張可能であり、追加の条件付き分布を導入することで、非負値テンソル因子分解に対応する確率モデルとして利用できる。

歴史

PLSAは潜在クラスモデルの一例であり、非負値行列因子分解との理論的関連性も報告されている^[6]^[7]。この用語「PLSA」は1999年にトーマス・ホフマンによって導入された^[8]。

確率的潜在意味解析

応用

拡張

歴史

関連項目

脚注

外部リンク

Related Articles