言語同定

言語同定（げんごどうてい、言語推測、英: language identification, language guessing）とは、自然言語処理において与えられた文章の自然言語を特定する問題である。言語同定の計算的なアプローチではテキスト分類の特別なケースとみなすことができ、様々な統計的モデルを使用することで問題解決を図る。

統計的手法による言語同定では複数のデータ分類に対する技術を用いたアプローチが挙げられる。例として、言語を識別したいあるテキストにおける圧縮容易性^{[注釈 1]}を既知の言語のテキストにおける圧縮容易性と比較する手法である。これは圧縮容易性を相互情報量に基づく距離尺度^{[注釈 2]}として表すことで実現している。この手法による言語の分類は歴史的に用いられてきた手法によって構築された言語の系図とある程度一致することが知られており、言語の系図を構築するためにも用いることができる^[要出典]。相互情報量に基づく距離尺度は伝統的に用いられてきたモデルによる手法と同等のアプローチであるとされており、一般にはこの手法の新規性や優位性があるとは見なされていない。

別の手法としてはカヴナーとトレンクレ（1994年）およびダニング（1994年）によって提案された方法が挙げられる。これは各言語ごとに訓練用テキストを用意し、それらのデータからn-gram（英語版）モデルを作成するといった手法である。これらのモデルでは（カヴナーとトレンクレによる）文字ベースおよび（ダニングによる）エンコード化されたバイトベースの二種類のモデルが存在しており、バイトベースのモデルでは言語同定と文字エンコーディングの検出が統合されたモデルとなっている。モデル作成後の流れとして、識別対象となるテキストに対しても同様のモデルを作成し、そのモデルを訓練用テキストにより作成された各言語モデルと比較する。言語同定の対象のテキストと最も類似性の高い言語はモデルもまた類似したものとなる。この手法では入力されたテキストの言語に対応するモデルが存在しない場合に問題となり得る。その場合、この手法ではその言語に最も類似した別の言語を結果として返すことがある。加えて、Web上に多く見られるような複数の言語で構成されたテキストに対する言語同定は非常に難度の高いものとなる。

より近代的な手法としてはジェフーレクとコルクス（2009年）によって提案された手法が挙げられる。これは構造化されていないテキスト中に複数の言語が混在している場合でも対応可能であり、n-gram（英語版）のような手法が苦手とするわずか数語の短いテキストに対しても頑健に動作する手法である^[要出典]。

グレフェンステットによって提案された古典的な統計的手法として、（英語における "the"など）特定の機能語の出現頻度（英語版）が存在している。

また（言語同定の正確性は低いが）最も普遍的に行われる非統計的かつ直感的なアプローチとして出現頻度の高い文字の組合せや、ダイアクリティカルマークなどの特徴的な発音記号や句読点を探すといったものが挙げられる^[1]^[2]。

類似言語のおける同定

言語同定用のシステムにおける大きなボトルネックの一つは互いに密接に関連するような言語を区別することが挙げられる。ブルガリア語とマケドニア語、またインドネシア語とマレー語のような非常に類似する言語では語彙的あるいは言語構造など共通点が多いことから、システムによって言語を特定することが難しいとされる。

ソフトウェア

Apache OpenNLP - n-gram（英語版）に基づく統計的検出が可能で103言語を区別することができるモデルも付属している。
Apache Tika（英語版） - 18言語を検出可能な言語同定ソフトウェア

脚注

参考文献

Benedetto, D., E. Caglioti and V. Loreto. Language trees and zipping. Physical Review Letters, 88:4 (2002), Complexity theory.
Cavnar, William B. and John M. Trenkle. "N-Gram-Based Text Categorization". Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) .
Cilibrasi, Rudi and Paul M.B. Vitanyi. "Clustering by compression". IEEE Transactions on Information Theory 51(4), April 2005, 1523–1545.
Dunning, T. (1994) "Statistical Identification of Language". Technical Report MCCS 94-273, New Mexico State University, 1994.
Goodman, Joshua. (2002) Extended comment on "Language Trees and Zipping". Microsoft Research, Feb 21 2002. (This is a criticism of the data compression in favor of the Naive Bayes method.)
Goutte, C.; Leger, S.; Carpuat, M. (2014) The NRC System for Discriminating Similar Languages. Proceedings of the Coling 2014 workshop "Applying NLP Tools to Similar Languages, Varieties and Dialects"
Grefenstette, Gregory. (1995) Comparing two language identification schemes. Proceedings of the 3rd International Conference on the Statistical Analysis of Textual Data (JADT 1995).
Poutsma, Arjen. (2001) Applying Monte Carlo techniques to language identification. SmartHaven, Amsterdam. Presented at CLIN 2001 Archived 2015-01-07 at the Wayback Machine..
Tan, L.; Zampieri, M.; Ljubešić, N.; Tiedemann, J. (2014) Merging Comparable Data Sources for the Discrimination of Similar Languages: The DSL Corpus Collection. Proceedings of the 7th Workshop on Building and Using Comparable Corpora (BUCC). Reykjavik, Iceland. p. 6-10
The Economist. (2002) "The elements of style: Analysing compressed data leads to impressive results in linguistics"
Radim Řehůřek and Milan Kolkus. (2009) "Language Identification on the Web: Extending the Dictionary Method" Computational Linguistics and Intelligent Text Processing.
Zampieri, M.; Tan, L.; Ljubešić, N.; Tiedemann, J. (2014) A Report on the DSL Shared Task 2014. Proceedings of the 1st Workshop on Applying NLP Tools to Similar Languages, Varieties and Dialects (VarDial). Dublin, Ireland. p. 58-67.

類似言語のおける同定

ソフトウェア

脚注

注釈

出典

参考文献

関連項目

Related Articles