コーパス
From Wikipedia, the free encyclopedia
語源
ラテン語で「身体」を意味する「corpus」を語源としており、英語においては20世紀前半より文学の全集を用いる言葉として用いられてきた[1]。『日本語語彙大系』は、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよいとしている[2]。『オックスフォード英語辞典』によれば、「言語分析のための言語資料体」を意味する言葉として「corpus」が用いられた初出は1956年である[1]。
構築
コーパスにおいては、収集したテキストが対象をある程度代表していることが求められる。母集団がある言語全体といった大規模なものである場合には、テキストのジャンルや年代、流通量などを利用した層化抽出が行われる。また、それぞれの層からは無作為抽出法でテキストが集められる[3]。一方で、言語母集団が特殊である場合には、悉皆的収集報によるコーパス構築が行われる[4]。均衡性や代表性を重視せず、大量のテキストを集める大規模収集法にもとづくコーパスも存在する。こうしたコーパスは、真に莫大な量のデータを収集することにより集めたデータが自己均衡化し、結果として累積的代表性が達成されると考える[5]。
コーパスには形態素、構文、語の意味といったメタテキスト・タグを付け加えることがある。これを注釈ないしアノテーションと呼ぶ[6][7]。各種のタグのうちもっとも広く利用されるのは品詞タグである。英語のような分かち書きをする言語においては、品詞タグ付けはスペースで分けられたそれぞれの単語の品詞を判断するのみで可能であるが、日本語においては形態素解析が必要である[8]。
分類
コーパスの分類には、異なる指標にもとづく様々なものがあり、それらの指標は必ずしも整合的ではない[9]。
人手で情報を付与したコーパスと区別する意味で、単に文書を集めたものを生コーパス(英: raw corpus)とよぶ[10]。これに対して、アノテーションを付与したコーパスを注釈付与コーパス(英: annotated corpus)またはタグ付きコーパス(英: tagged corpus)と呼ぶ[6]。
ある言語全般を収集対象としたコーパスを一般コーパス(英: general corpus)、新聞・小説といった個別言語のなかでの特定の文章を収集対象としたコーパスを特殊コーパス(英: specific corpus)と呼ぶ[9]。一般コーパスはある言語のデータを想定母集団として、層化抽出法・無作為抽出法でバランスよくテキストを抜き出すことがもっぱらである[11]。このようにして作成したコーパスのことを均衡コーパス(英: balanced corpus)とよぶ[10]。一方で、特にバランスを考えず、莫大な量のテキストを収集することにより累積的代表性を獲得しようとする一般コーパスもある。バンク・オブ・イングリッシュなどがその代表例である[12]。
異なる想定母集団から同一基準で作成したコーパスのことを比較コーパス(英: comparable corpus)と呼ぶ。たとえばアメリカ英語を対象とする均衡コーパスであるブラウン・コーパスと同一基準で作成した、イギリス英語のコーパスであるランカスター=オスロ=ベルゲン・コーパス(LOBコーパス)、あるいは時代別に言語資料を収集した時系列コーパス(英: chronological corpus)といったものが比較コーパスの一例である[13]。また、同じトピックに関する2言語の文書対などもそのように呼ぶ[14]。
特殊コーパスの例としては、新聞・雑誌・文学といった特定ジャンルの文章を集めたコーパスがある。これをジャンルコーパス(英: genre corpus)と呼ぶ。教科書・参考書などを収集した教材コーパス(英: pedagogical corpus)は、一般コーパスとの比較により規範的文章の実際の用例との差異を評価することができる。また、外国語学習者の作文などを収集したコーパスを学習者コーパス(英: learner corpus)と呼ぶ[15]。翻訳関係にある2文書対を収集したコーパスを対訳コーパス(英: bilingual corpus)またはパラレルコーパス(英: parallel corpus)と呼ぶ[14]。
歴史
言語学においては19世紀より大量のテキストにもとづく量的研究がおこなわれていた[1]。コーパスはもともと情報カードなどをもととする手作業で準備・検索される集成であったが、20世紀後半の情報技術の進歩により、コーパスはより利便性の高い電子的様式をとるようになっていった[16]。はじめての本格的コーパスは、1964年にブラウン大学の研究者によって公開されたブラウン・コーパスであり[17]、その後のコーパス言語学に強い影響を与えた[18]。
アメリカにおいてはノーム・チョムスキーの生成文法理論にもとづく内省的言語学が主流となった一方、ヨーロッパにおいてはイギリス・北欧を中心にコーパス研究が進み、LOBコーパスをはじめとするコーパスが構築された。また、1980年代にはバーミンガム大学とコリンズ社が共同構築したバーミンガム・コーパス(後のバンク・オブ・イングリッシュ)のような、産学連携による大規模コーパスの構築もはじまった。同コーパスは『コウビルド英語辞典』編纂にあたっての基礎資料となった。1990年代には1億語からなるイギリス英語の均衡コーパスであるブリティッシュ・ナショナル・コーパス(BNC)が完成した。BNCの完成を受けて英語以外のコーパスも作成されるようになり、2000年代にはインターネット上のテキストを利用したコーパス構築も本格化した[1]。
日本語コーパスは1997年に公開された「京都大学テキストコーパス(京大コーパス)」がその嚆矢であり[19]、2011年には国立国語研究所によりBNCを規範とする1億語単位の均衡コーパスである「現代日本語書き言葉均衡コーパス(BCCWJ)」が公開された[20]。BCCWJの公開は日本語学界に大きな影響を与え、特に日本語学・日本語教育分野において、コーパスを利用した言語研究は急増した[19]。