コーパス言語学

From Wikipedia, the free encyclopedia

コーパス言語学(こーぱすげんごがく、英:Corpus linguistics)は、コーパス(複数形:コーポラ)を用いた実証的な言語学の一分野。[1]コーパスとは、特定の言語変種を代表することを目指して収集された、実在の話し言葉および書き言葉のテキストから成るバランスのとれた(しばしば層化された)集合である。[2]今日では、コーパスは一般に機械可読のデータ集合である。

コーパス言語学は、その言語の自然な文脈(レアリア)で収集されたコーパスを用い、実験的干渉を最小限に抑えることで、言語の信頼できる分析を実現しようとする。大規模なテキスト集合は、質的なやり方では検証しにくい言語概念について、言語学者が定量的研究を実施することを可能にする。[3]

テキスト・コーパス法は、自然言語におけるテキスト群を用いて、その言語を支配する抽象的規則の集合を導出する。その成果は、当該言語と同様の分析が施された他の言語との関係を探るためにも用いられる。この種の最初のコーパスは原テキストから手作業で作成されたが、現在ではその作業は自動化されている。

コーパスは言語学研究に用いられてきただけでなく、辞書の編纂(1969年刊のアメリカンヘリテージ英語辞典英語版に始まる)や参照文法の編纂にも次第に用いられており、その先駆的な例としては1985年刊の「英語総合文法英語版」が挙げられる。

この分野の専門家の間では、コーパスへのアノテーションについて見解が分かれている。見解は幅広く、テキストそれ自体に語らせるためアノテーションを最小限にすべきだとするジョン・マクラーディ・シンクラー英語版から[4]、厳密な記録付与によってより高度な言語理解が可能になるとしてアノテーションを擁護する英語使用調査英語版コーパスチーム(ユニヴァーシティ・カレッジ・ロンドン)に至るまでさまざまである。[5]

歴史

文法記述の最初期の試みのいくつかは、宗教的または文化的に特別な意義をもつコーパスに依拠していた。たとえば、プラーティシャーキャ英語版は、ヴェーダに見られるサンスクリットの音声パターンを記述し、古典サンスクリットの文法であるパーニニの著作も、一部は同じコーパスの分析に基づいていた。同様に、初期のアラビア語文法家たちはクルアーンの言語に特別の注意を払った。西欧の伝統では、学者たちは聖書やその他の正典的テクストの言語を精査できるよう、コンコルダンスを作成した。

英語コーパス

現代コーパス言語学の画期となったのは、1967年に刊行されたヘンリー・クチェラ英語版W・ネルソン・フランシス英語版による「現代アメリカ英語の計算機分析」である。この研究は、1961年のアメリカ英語100万語から成る、構造化されバランスのとれたブラウン・コーパスの分析に基づいていた。コーパスは多様なジャンルからの2,000のテキスト標本で構成されている。[6]ブラウン・コーパスは、言語学研究のために設計された初のコンピュータ化コーパスであった。[7]クチェラとフランシスはブラウン・コーパスに様々な計算分析を施し、その成果を言語学言語教育心理学統計学社会学の要素と結びつけて、多面的で豊かな大著を生み出した。さらに重要な出版物としては、ランドルフ・クワークによる1960年の 「英語使用の記述に向けて」があり[8]、そこで彼は英語用法調査コーパスを導入した。クワークのコーパスは、言語全体を代表させることを目的に構築された、最初の近代的コーパスであった。[9]

その直後、ボストンの出版社ホートン・ミフリン・ハーコート英語版社は、新しい「アメリカンヘリテージ英語辞典」のために、100万語規模の三行用例データベースの提供をクチェラに依頼した。コーパス言語学を用いて編纂された最初の辞書であるアメリカンヘリテージ英語辞典は、規範的要素(言語はどうあるべきか)と記述的情報(実際にはどう使われているか)を組み合わせるという革新的な一歩を踏み出した。

他の出版社もこれに続いた。英国の出版社コリンズのコビルド英英学習辞典は、バンク・オブ・イングリッシュを用いて編纂された。英語用法調査コーパスは、クワークらによって執筆され、1985年に刊行されたコーパスに基づく文法書「英語総合文法」に用いられた。[10]

ブラウン・コーパスは、同様の構造をもつ多数のコーパスを生み出した。たとえば、LOB コーパス英語版(1960年代のイギリス英語)、Kolhapur(インド英語)、Wellington(ニュージーランド英語)、Australian Corpus of English(オーストラリア英語)、Frown コーパス(1990年代初頭のアメリカ英語)、FLOB コーパス(1990年代のイギリス英語)などである。その他のコーパスは多くの言語・変種・様式(モード)を代表し、国際英語コーパス英語版 や、1990年代に出版社、オックスフォード大学ランカスター大学大英図書館の共同事業として作成された、話し言葉および書き言葉の多様なテキストから成る1億語規模のコレクション英国国立コーパス英語版などが含まれる。現代アメリカ英語については、アメリカ国立コーパス英語版の作業は停滞しているが、4億語超の現代アメリカ英語コーパス英語版(COCA、1990年–現在)は現在ウェブインターフェース経由で利用可能である。

転写された話し言葉の最初のコンピュータ化コーパスは、1971年にモントリオール・フレンチ・プロジェクトによって構築された。[11]これは100万語を収めており、オタワ=ハル地域におけるシャナ・ポプラック英語版による、より大規模なフランス語話し言葉コーパスに着想を与えた。[12]

多言語コーパス

1990年代、自然言語処理における統計的手法の顕著な初期成果の多くは、主として IBMリサーチの研究によって、機械翻訳の分野で生まれた。これらのシステムは、カナダ議会欧州連合において、政府のすべての議事を全公用語へ翻訳することを法が要求した結果として作成された、既存の多言語テキスト・コーパスを活用することができた。

非ヨーロッパ諸語にもコーパスは存在する。たとえば日本では、国立国語研究所が、日本語の話し言葉・書き言葉のコーパスを多数構築している。手話のコーパスも、ビデオデータを用いて作成されている。[13]

古代言語のコーパス

現存する言語のコーパスに加えて、古代言語のテキスト集から成るコンピュータ化コーパスも作成されている。一例として、1970年代以降に開発されてきたヘブライ語聖書の アンダーセン・フォーブス・データベースがある。そこでは、あらゆる節が、統語の最大七層を表現するグラフを用いて構文解析され、あらゆるセグメントに七つの情報フィールドのタグ付けが施されている。[14][15]クルアーンアラビア語コーパス英語版は、クルアーン古典アラビア語のためのアノテーション付きコーパスである。これは近年のプロジェクトで、形態素分割、品詞タグ付け、依存文法を用いた統語解析など、複数層のアノテーションを含んでいる。[16]サンスクリットデジタルコーパスは、「サンディ分割(Sandhi‑split)されたサンスクリット文献のコーパスで、完全な形態論的・語彙的分析を備え……サンスクリット言語学および文献学におけるテキスト史的研究のために設計されている」ものである。[17]

特定分野のコーパス

純粋な言語学的探究にとどまらず、研究者たちはコーパス言語学を他の学術・実務領域にも応用し始めている。例えば、新たに興りつつある下位分野である法とコーパス言語学英語版は、コーパスのデータやツールを用いて法的テキストを理解しようとする試みである。DBLPディスカバリー・データセットは計算機科学に特化し、著者所属、引用、研究分野などの関連メタデータを備えた計算機科学分野の出版物を収録している。[18]さらに焦点を絞ったデータセットとして、計算言語学会アンソロジーの論文群と Google Scholarのメタデータを組み合わせた NLP Scholar が導入された。[19]また、コーパスは翻訳の取り組み[20]や外国語教育にも資する。[21]

方法

関連項目

脚注

Related Articles

Wikiwand AI