中間言語

From Wikipedia, the free encyclopedia

中間言語ちゅうかんげんごは、任意の言語を異なる任意の言語へ翻訳する際に利用する中間的な人工言語もしくは自然言語である。

ピヴォット言語(pivot language)は、中間言語のうちでも、特にピヴォット翻訳と呼ばれる機械翻訳における手法においてあらわれる言語である(英語版の記事名は pivot language となっており、特にこれについて説明している)。

一般に機械翻訳では、構文解析の結果すなわち構文木の変換によって翻訳したり(構文トランスファー方式)、あるいはより深く意味解析までおこなって翻訳をする(意味トランスファー方式)。いずれにしてもその変換は、翻訳元と翻訳先の言語に特化したものになる。それに対してピヴォット翻訳では、どの言語にも特化せず、どの言語にも対応できる「ピヴォット言語」への翻訳と、そこからの目的言語への翻訳、というようにして機械翻訳が可能であるものとして考えられるものである。

この手法のメリットは、組合せ爆発を防げることである。中間言語を用いると、翻訳が必要となる言語の組み合わせの数は二乗スケールではなく線形スケールに収まる。(言語Aと中間言語P、言語Bと中間言語P、… について翻訳が出来ればよく、あらゆる組み合わせの翻訳方法まで知る必要がなくなる)

一方のデメリットは、いわゆる重訳のそれと同様である。つまり、中間言語との再翻訳で2度の翻訳誤りと曖昧さを生む可能性があることである(この可能性が小さくなるようにピヴォット言語は設計されねばならず、そしてそれは難しいことでもある)。中間言語を翻訳に用いなければ、その可能性は1度に抑えられている。例えば、エルナン・コルテスメソアメリカインディアンと会話する際に、エルナン・コルテスはヘロニモ・デ・アギラールスペイン語で話し、ヘロニモ・デ・アギラールはマリンチェマヤ語で話し、マリンチェはインディアンにナワトル語で話すように、各言語同士での再翻訳でニュアンスや意味の違いが発生しうる。

機械翻訳

統計的機械翻訳英語版は言語Aから言語Bへの翻訳に言語A・Bのパラレルコーパス英語版を利用するが、パラレルコーパスは任意言語の全ての対には存在しないため任意言語翻訳では使えない。中間言語Pは2つの言語を繋ぎ、言語A・Bと中間言語Pのパラレルコーパスを使うことで任意言語翻訳を実現する。中間言語を用いた翻訳は、異なるコーパスへ転記するため厳密な情報保存において問題を抱えることがある。AからBへ翻訳に用いる2つのパラレルコーパス(A-P・P-B)は必然的に言語情報の欠損が起きる。ルールベース機械翻訳英語版は統計情報に依存せず、情報欠損の削減に助力する。ルールベース機械翻訳はA-P翻訳とP-B翻訳を一定のルールに従って翻訳する。

機械翻訳では3つの基礎的な手法を翻訳に利用される。1つはトライアングレーション、A-P・P-Bのフレーズの相関性に焦点を当てる。1つはトランスファー英語版、全てのセンテンスをAからPに翻訳、PからBに翻訳する。1つはシンセシス、翻訳システムのコーパスを構築する。トライアングレーション手法は、A-Bのフレーズテーブルを構築するためのA-P・P-Bの相対と語彙の重みを計算する。トランスファー手法は、トライアングレーションのような重み計算なくAからP、PからBへの単純な直意翻訳をする。シンセシス手法は、既存のAコーパスを使って、自身のシステムの改善するためのコーパスの構築に役立てる。統計的機械翻訳においてトライアングレーション手法とトランスファー手法を単純比較すると、トライアングレーション手法はトランスファー手法より適切な翻訳結果が得られると見なされている。

3つの中間言語の翻訳手法は統計的機械翻訳に役立つが、シンセシス手法はルールベース機械翻訳では適切ではなく、期待通りの性能を発揮しない。統計的機械翻訳とルールベース機械翻訳は一長一短であり、両翻訳システムのハイブリッド翻訳はどちらかのみを使用した翻訳システムより良い翻訳結果を得られる。

言語学

言語例

脚注

Related Articles

Wikiwand AI