言語同定
From Wikipedia, the free encyclopedia
統計的手法による言語同定では複数のデータ分類に対する技術を用いたアプローチが挙げられる。例として、言語を識別したいあるテキストにおける圧縮容易性[注釈 1]を既知の言語のテキストにおける圧縮容易性と比較する手法である。これは圧縮容易性を相互情報量に基づく距離尺度[注釈 2]として表すことで実現している。この手法による言語の分類は歴史的に用いられてきた手法によって構築された言語の系図とある程度一致することが知られており、言語の系図を構築するためにも用いることができる[要出典]。相互情報量に基づく距離尺度は伝統的に用いられてきたモデルによる手法と同等のアプローチであるとされており、一般にはこの手法の新規性や優位性があるとは見なされていない。
別の手法としてはカヴナーとトレンクレ(1994年)およびダニング(1994年)によって提案された方法が挙げられる。これは各言語ごとに訓練用テキストを用意し、それらのデータからn-gramモデルを作成するといった手法である。これらのモデルでは(カヴナーとトレンクレによる)文字ベースおよび(ダニングによる)エンコード化されたバイトベースの二種類のモデルが存在しており、バイトベースのモデルでは言語同定と文字エンコーディングの検出が統合されたモデルとなっている。モデル作成後の流れとして、識別対象となるテキストに対しても同様のモデルを作成し、そのモデルを訓練用テキストにより作成された各言語モデルと比較する。言語同定の対象のテキストと最も類似性の高い言語はモデルもまた類似したものとなる。この手法では入力されたテキストの言語に対応するモデルが存在しない場合に問題となり得る。その場合、この手法ではその言語に最も類似した別の言語を結果として返すことがある。加えて、Web上に多く見られるような複数の言語で構成されたテキストに対する言語同定は非常に難度の高いものとなる。
より近代的な手法としてはジェフーレクとコルクス(2009年)によって提案された手法が挙げられる。これは構造化されていないテキスト中に複数の言語が混在している場合でも対応可能であり、n-gramのような手法が苦手とするわずか数語の短いテキストに対しても頑健に動作する手法である[要出典]。
グレフェンステットによって提案された古典的な統計的手法として、(英語における "the"など)特定の機能語の出現頻度が存在している。
また(言語同定の正確性は低いが)最も普遍的に行われる非統計的かつ直感的なアプローチとして出現頻度の高い文字の組合せや、ダイアクリティカルマークなどの特徴的な発音記号や句読点を探すといったものが挙げられる[1][2]。
類似言語のおける同定
ソフトウェア
- Apache OpenNLP - n-gramに基づく統計的検出が可能で103言語を区別することができるモデルも付属している。
- Apache Tika - 18言語を検出可能な言語同定ソフトウェア