ブラウン・コーパス
From Wikipedia, the free encyclopedia
コーパスとは言語分析のための言語資料を集成したものを指す言葉であり、言語学においては19世紀より大量のテキストにもとづく量的研究がおこなわれていた[1]。コーパスはもともと情報カードなどをもととする手作業で準備・検索される集成であったが、20世紀後半の情報技術の進歩により、コーパスはより利便性の高い電子的様式をとるようになっていった[2]。
ブラウン・コーパスは、ブラウン大学の研究者であるヘンリー・クチェラとウィンストロップ・ネルソン・フランシスにより制作された[2]。同コーパスが構築される重要な契機となったのは、ユニヴァーシティ・カレッジ・ロンドンの英語慣用調査(Survey of English Usage、SEU)であり、フランシスにはSEUに所属していた経験があった。また、同機関を設立したランドルフ・クワークと、ブラウン大学にクチェラとフランシスを招いたウィリアム・フリーマン・トワデルには交友があった。しかし、SEUの電算化コーパス構築が完了するのは1980年代後半のことであり、電子化された本格的汎用コーパスはブラウン・コーパスがはじめてのものとなった[3]。
ブラウン・コーパスの設計にあたってはクワークおよび『ウェブスター新国際英語辞典第3版』の編纂を務めたフィリップ・バブコック・ゴーブ、心理学者のジョン・ビッセル・キャロルが招かれた。彼らとの会議ののち、コーパスは500テキストから2,000語ずつ集めた1,000,000語から構成すること、1961年にアメリカ合衆国で出版された散文的文献をジャンルごとに集成して構築することが決定された。実際に構築に用いるテキストは、書籍リストなどを利用して無作為に抽出された[4]。ブラウン・コーパスの構築は1963年から翌年にかけて、アメリカ合衆国教育省より23,000ドルの費用を与えられて実行された[5]。これらのテキストは特許庁考案の文字コーディング法を応用した表記に従い、IBMパンチカードの1行ぶんにあたる80桁(本文70桁+空白1桁+位置マーカー9桁)を基本単位として処理された[6]。これらのテキストは、ブラウン大学計算研究室のIBM 7070データ処理システムにより処理され、7トラックないし9トラックの磁気テープに記録された[3]。
このようにして、1964年にはブラウン・コーパスが一般公開された[6]。クチェラとフランシスは、1967年に『現代アメリカ英語の計量的分析(Computational Analysis of Present-Day American English)』を出版した[3]。1971年にはコーパスの内容が一部修正・改訂された。また、1979年には品詞タグ付けがおこなわれた[6]。
内容
ブラウン・コーパスは1964年公開の原本であるForm A、句読点と特殊コードを省略したForm B、品詞タグ付けをおこなったForm Cから構成される。同コーパスは1,014,312語からなり、1961年に刊行された、アメリカ英語母語話者による書き言葉の出版物がサンプリングの対象である[6]。うち、詩・劇・会話文が50%を越える小説などは対象外となっている。サンプリングの現実母集団(範囲を特定した母集団)にはブラウン大学図書館およびプロヴィデンス・アシニアムの蔵書目録および、ニューヨーク公共図書館のマイクロフィルム、特定の古書店の蔵書目録などが利用され、カテゴリ区分は以下のような内訳となっている[7]。
| ジャンル・カテゴリ | 文書数 | % | ||
|---|---|---|---|---|
| 情報散文 | 新聞 | 新聞雑誌・報道 | 44 | 8.8% |
| 新聞雑誌・論説 | 27 | 5.4% | ||
| 新聞雑誌・評論 | 17 | 3.4% | ||
| 一般散文 | 宗教 | 17 | 3.4% | |
| 技術・趣味 | 36 | 7.2% | ||
| 一般実用 | 48 | 9.6% | ||
| 随筆・伝記・回顧録 | 75 | 15.0% | ||
| 雑(政府文書など) | 30 | 6.0% | ||
| 学術 | 教養系・科学系 | 80 | 16.0% | |
| 創作散文 | 小説 | 一般小説 | 29 | 5.8% |
| 推理小説 | 24 | 4.8% | ||
| SF小説 | 6 | 1.2% | ||
| 冒険小説 | 29 | 5.8% | ||
| 恋愛小説 | 29 | 5.8% | ||
| ユーモア小説 | 9 | 1.8% | ||
| 総計 | 500 | 100% | ||