低資源言語

低資源言語（ていしげんげんご、英語: low resource language ）は、自然言語処理のために利用可能なリソース（言語資源）が限られる言語のことである^[1]。少資源言語（しょうしげんげんご）^[2]、少数資源言語（しょうすうしげんげんご）^[3]、低リソース言語（ていリソースげんご）などとも訳される^[4]。

自然言語処理においては1990年代以降、ルールベースから統計ベースへのアプローチの転換が進んだ^[5]。自然言語処理の研究・開発の基盤となるデータを言語資源（言語リソース）と呼称するが、自然言語処理のデータ駆動的アプローチは大規模な言語資源の構築・公開が必要となる^[6]。しかし、世界の多くの言語はこうした言語資源の整備が進んでおらず、自然言語処理研究の大半は、世界に7,000近くある言語のうち、20言語ほどを対象とするものである^[5]。

英語・日本語・ヒンディー語といった言語資源が十分に整備されている言語においては、高い精度の自然言語処理が可能である一方、アッサム語・ボド語といった低資源言語においては、既存の技術を十全に用いることが難しい^[7]。近世日本語以前の日本語や古代エジプト語のような古典語も低資源言語となるほか^[2]^[3]、一般に「高資源言語」と呼ばれる言語でも、特定の場合においては十分な資源を用意できないことがある^[8]。たとえば、現代日本語においてもたとえば文章要約のようなタスクにおいては、英語ほど十分な資源が用意されているわけではない^[4]。

教師あり学習にもとづく自然言語処理には、構文解析器に学習させるためのアノテーション付きコーパスが必要であったが、Duong (2017)によればUniversal Dependenciesが対応するツリーバンクは40言語しか存在しない。また、その中でもタミル語・カザフ語のような言語は1,000文未満というごく少数のアノテーションしか付与されていない^[9]。Duong (2017)は低資源言語を少量のアノテーション付きデータしか利用不能な少資源言語（scarce-resource languages）、アノテーション付きデータは利用不能であるものの、辞書やパラレルコーパスは利用可能な極少資源言語（very scarce-resource languages）、フィールド言語学者による資料しか利用不能な超極少資源言語（extremely scarce-resource languages）に分類した^[9]。

Transformerや大規模言語モデルといったニューラル言語モデルは、自然言語処理技術を飛躍的に進歩させたが、言語モデルの能力はコーパスに依存するため、潤沢なリソースを用意できる高資源言語と低資源言語ではその性能に大きな差異が生まれる^[10]。Joshi et.al. (2020)はデータリポジトリ（LDCカタログとELRAマップ）に収録されるラベル付きデータの数と、各言語版Wikipediaの記事数をもとに各言語を6つのクラスタに分類し、ラベル付きデータは少ない一方でラベルなしデータは潤沢な一部の言語はゼロショット学習（英語版）の恩恵を受ける一方、ラベル付きデータ・ラベルなしデータがいずれもほとんど存在しない15%の言語においては自然言語処理の格差がより大きくなるであろうと論じた。また、十分なラベル付きデータを有する言語には類型論的特徴に偏りがあり、ゼロショット学習において支障が生まれる可能性についても指摘した。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

低資源言語

参考文献

Related Articles