情報抽出

From Wikipedia, the free encyclopedia

情報抽出(じょうほうちゅうしゅつ、英語: Information Extraction、略称: IE)は非構造化文書と機械が読み取れる (machine-readableな) 半構造化文書の両方またはいずれから自動的に構造化データを抽出するタスクである。

多くの場合、この作業は人間の言葉で書かれた文書を自然言語処理 (: Natural Language Processing、略: NLP) の手法を用いて処理することを指す。画像・音楽・動画の自動アノテーションやコンテンツ抽出のような、近年のマルチメディア文書の処理もまた情報抽出として捉えられる。

その問題の難しさから、IEに対する現在のアプローチは狭く制限されたドメインに焦点を当てている。例として、ニュースサービスの企業合併についての報道からの情報抽出があり、次のようなフォーマルな関係による情報

,

を次のようなニュース文

"Yesterday, New York based Foo Inc. announced their acquisition of Bar Corp."

から抜き出す。

IEの広い目標は、蓄積された非構造化データのうえで処理を行えるようにすることである。より具体的な目標は、入力データの論理的内容に基づいて推論を行う論理的推論を可能にすることである。

現代における情報抽出の意義は、インターネットの発展と構造化されていない文書の増大に関連する。膨大に存在する非構造化データをコンピュータが処理可能な形式へ変換する需要が高まっている。ティム・バーナーズ=リーは、現在のWebを「文書のWeb」と呼び、将来的な「データのWeb」への移行を主張している[1]

情報抽出の応用例として、知識ベースへの情報登録、自動要約質問応答システムなどが想定される。例として、自然言語で書かれた文書をスキャンし、抽出された情報をデータベースに入力するアプリケーションが挙げられる[2]

主要タスク

情報抽出における主要なタスクおよびサブタスクには以下がある:

  • テンプレート充填:あるイベントに関する決まった項目(例:攻撃者、被害者、日時など)を抽出する。
    • イベント抽出:文書中に記述された1つ以上のイベントをテンプレートに反映。
  • 知識ベース構築:文書集合から事実の三項関係(例:バラク・オバマ–配偶者–ミシェル・オバマ)を抽出。
    • 固有表現抽出:人名、地名、組織名、日時、数値などを識別[3]
    • 照応解析:同一実体を指す語(例:"IBM"と"International Business Machines")をリンク。
    • 関係抽出英語版:実体間の関係(例:「ビルはIBMで働く」 → 働く(ビル, IBM))を抽出[3]
  • 半構造情報の抽出
    • 表抽出:文書から表を検出し構造的に抽出[4][5]
    • 表情報抽出:表中の各セルの意味役割を理解し、情報を構造化[4][6][5]
  • 用語抽出:専門用語やドメイン固有語彙の抽出。
  • 音響情報抽出:音楽信号などから打楽器音などの特徴を抽出[7]

手法

脚注

関連項目

Related Articles

Wikiwand AI