固有表現抽出
From Wikipedia, the free encyclopedia
歴史
具体例
太郎は5月18日の朝9時に花子に会いに行った。
という文に含まれる固有表現を抽出すると以下のようになる。
<PERSON>太郎</PERSON>は<DATE>5月18日</DATE>の<TIME>朝9時</TIME>に<PERSON>花子</PERSON>に会いに行った。
ここで、<..></..>で囲まれた部分が固有表現であり、<..>は表現の分類を示すタグである。 <PERSON>は人名、<DATE>は日付表現、<TIME>は時間表現を示す。
手法
固有表現分類
具体例に示したように、固有表現には人名や日付表現など幾つかの分類があり、この分類を定義する必要がある。
MUCでは、組織名 (ORGANIZATION)、人名 (PERSON)、地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額表現 (MONEY)、割合表現 (PERCENT) の7種類を定義した。
IREX では MUC の分類に固有物名 (ARTIFACT) を加えた全8種類の分類を採用した。
これらの分類にはそれらの範囲について曖昧性などの問題がある。ニューヨーク大学の関根聡らは MUC・IREX の固有表現分類を元に拡張固有表現階層 (Extended Named Entity Hierarchy) を提唱している。これは他の分類と異なり階層構造を持ち、様々な粒度での分類を可能にしている。