コーパス言語学

言語学
世界の言語分布図
基礎分野
音声学音韻論意味論形態論語用論統語論文法学個別言語学
言語の変化と変異
言語の起源歴史言語学比較言語学言語地理学言語系統論言語年代学言語類型論社会言語学方言学語源学
理論
理論言語学生成言語学認知言語学
応用分野
応用言語学計算言語学計量言語学言語人類学心理言語学神経言語学進化言語学政治言語学生物言語学対照言語学法言語学コーパス言語学 LGBTQ言語学言語獲得
関連項目
言語言語学者文献学書誌学辞書学
ポータルカテゴリ
表話編歴

コーパス言語学（こーぱすげんごがく、英：Corpus linguistics）は、コーパス（複数形：コーポラ）を用いた実証的な言語学の一分野。^[1]コーパスとは、特定の言語変種を代表することを目指して収集された、実在の話し言葉および書き言葉のテキストから成るバランスのとれた（しばしば層化された）集合である。^[2]今日では、コーパスは一般に機械可読のデータ集合である。

コーパス言語学は、その言語の自然な文脈（レアリア）で収集されたコーパスを用い、実験的干渉を最小限に抑えることで、言語の信頼できる分析を実現しようとする。大規模なテキスト集合は、質的なやり方では検証しにくい言語概念について、言語学者が定量的研究を実施することを可能にする。^[3]

テキスト・コーパス法は、自然言語におけるテキスト群を用いて、その言語を支配する抽象的規則の集合を導出する。その成果は、当該言語と同様の分析が施された他の言語との関係を探るためにも用いられる。この種の最初のコーパスは原テキストから手作業で作成されたが、現在ではその作業は自動化されている。

コーパスは言語学研究に用いられてきただけでなく、辞書の編纂（1969年刊のアメリカンヘリテージ英語辞典（英語版）に始まる）や参照文法の編纂にも次第に用いられており、その先駆的な例としては1985年刊の「英語総合文法（英語版）」が挙げられる。

この分野の専門家の間では、コーパスへのアノテーションについて見解が分かれている。見解は幅広く、テキストそれ自体に語らせるためアノテーションを最小限にすべきだとするジョン・マクラーディ・シンクラー（英語版）から^[4]、厳密な記録付与によってより高度な言語理解が可能になるとしてアノテーションを擁護する英語使用調査（英語版）コーパスチーム（ユニヴァーシティ・カレッジ・ロンドン）に至るまでさまざまである。^[5]

歴史

文法記述の最初期の試みのいくつかは、宗教的または文化的に特別な意義をもつコーパスに依拠していた。たとえば、プラーティシャーキャ（英語版）は、ヴェーダに見られるサンスクリットの音声パターンを記述し、古典サンスクリットの文法であるパーニニの著作も、一部は同じコーパスの分析に基づいていた。同様に、初期のアラビア語文法家たちはクルアーンの言語に特別の注意を払った。西欧の伝統では、学者たちは聖書やその他の正典的テクストの言語を精査できるよう、コンコルダンスを作成した。

英語コーパス

現代コーパス言語学の画期となったのは、1967年に刊行されたヘンリー・クチェラ（英語版）とＷ・ネルソン・フランシス（英語版）による「現代アメリカ英語の計算機分析」である。この研究は、1961年のアメリカ英語100万語から成る、構造化されバランスのとれたブラウン・コーパスの分析に基づいていた。コーパスは多様なジャンルからの2,000のテキスト標本で構成されている。^[6]ブラウン・コーパスは、言語学研究のために設計された初のコンピュータ化コーパスであった。^[7]クチェラとフランシスはブラウン・コーパスに様々な計算分析を施し、その成果を言語学・言語教育・心理学・統計学・社会学の要素と結びつけて、多面的で豊かな大著を生み出した。さらに重要な出版物としては、ランドルフ・クワークによる1960年の「英語使用の記述に向けて」があり^[8]、そこで彼は英語用法調査コーパスを導入した。クワークのコーパスは、言語全体を代表させることを目的に構築された、最初の近代的コーパスであった。^[9]

その直後、ボストンの出版社ホートン・ミフリン・ハーコート（英語版）社は、新しい「アメリカンヘリテージ英語辞典」のために、100万語規模の三行用例データベースの提供をクチェラに依頼した。コーパス言語学を用いて編纂された最初の辞書であるアメリカンヘリテージ英語辞典は、規範的要素（言語はどうあるべきか）と記述的情報（実際にはどう使われているか）を組み合わせるという革新的な一歩を踏み出した。

他の出版社もこれに続いた。英国の出版社コリンズのコビルド英英学習辞典は、バンク・オブ・イングリッシュを用いて編纂された。英語用法調査コーパスは、クワークらによって執筆され、1985年に刊行されたコーパスに基づく文法書「英語総合文法」に用いられた。^[10]

ブラウン・コーパスは、同様の構造をもつ多数のコーパスを生み出した。たとえば、LOB コーパス（英語版）（1960年代のイギリス英語）、Kolhapur（インド英語）、Wellington（ニュージーランド英語）、Australian Corpus of English（オーストラリア英語）、Frown コーパス（1990年代初頭のアメリカ英語）、FLOB コーパス（1990年代のイギリス英語）などである。その他のコーパスは多くの言語・変種・様式（モード）を代表し、国際英語コーパス（英語版）や、1990年代に出版社、オックスフォード大学、ランカスター大学、大英図書館の共同事業として作成された、話し言葉および書き言葉の多様なテキストから成る1億語規模のコレクション英国国立コーパス（英語版）などが含まれる。現代アメリカ英語については、アメリカ国立コーパス（英語版）の作業は停滞しているが、4億語超の現代アメリカ英語コーパス（英語版）（COCA、1990年–現在）は現在ウェブインターフェース経由で利用可能である。

転写された話し言葉の最初のコンピュータ化コーパスは、1971年にモントリオール・フレンチ・プロジェクトによって構築された。^[11]これは100万語を収めており、オタワ＝ハル地域におけるシャナ・ポプラック（英語版）による、より大規模なフランス語話し言葉コーパスに着想を与えた。^[12]

多言語コーパス

1990年代、自然言語処理における統計的手法の顕著な初期成果の多くは、主として IBMリサーチの研究によって、機械翻訳の分野で生まれた。これらのシステムは、カナダ議会や欧州連合において、政府のすべての議事を全公用語へ翻訳することを法が要求した結果として作成された、既存の多言語テキスト・コーパスを活用することができた。

非ヨーロッパ諸語にもコーパスは存在する。たとえば日本では、国立国語研究所が、日本語の話し言葉・書き言葉のコーパスを多数構築している。手話のコーパスも、ビデオデータを用いて作成されている。^[13]

古代言語のコーパス

現存する言語のコーパスに加えて、古代言語のテキスト集から成るコンピュータ化コーパスも作成されている。一例として、1970年代以降に開発されてきたヘブライ語聖書のアンダーセン・フォーブス・データベースがある。そこでは、あらゆる節が、統語の最大七層を表現するグラフを用いて構文解析され、あらゆるセグメントに七つの情報フィールドのタグ付けが施されている。^[14]^[15]クルアーンアラビア語コーパス（英語版）は、クルアーンの古典アラビア語のためのアノテーション付きコーパスである。これは近年のプロジェクトで、形態素分割、品詞タグ付け、依存文法を用いた統語解析など、複数層のアノテーションを含んでいる。^[16]サンスクリットデジタルコーパスは、「サンディ分割（Sandhi‑split）されたサンスクリット文献のコーパスで、完全な形態論的・語彙的分析を備え……サンスクリット言語学および文献学におけるテキスト史的研究のために設計されている」ものである。^[17]

特定分野のコーパス

純粋な言語学的探究にとどまらず、研究者たちはコーパス言語学を他の学術・実務領域にも応用し始めている。例えば、新たに興りつつある下位分野である法とコーパス言語学（英語版）は、コーパスのデータやツールを用いて法的テキストを理解しようとする試みである。DBLPディスカバリー・データセットは計算機科学に特化し、著者所属、引用、研究分野などの関連メタデータを備えた計算機科学分野の出版物を収録している。^[18]さらに焦点を絞ったデータセットとして、計算言語学会アンソロジーの論文群と Google Scholarのメタデータを組み合わせた NLP Scholar が導入された。^[19]また、コーパスは翻訳の取り組み^[20]や外国語教育にも資する。^[21]

コーパス言語学

歴史

英語コーパス

多言語コーパス

古代言語のコーパス

特定分野のコーパス

方法

関連項目

脚注

Related Articles