文書分類 From Wikipedia, the free encyclopedia 文書分類(ぶんしょぶんるい、英: Document classification/categorization)は、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。 文書分類に使われる技法としては、以下のものがある。 単純ベイズ分類器 tf-idf 潜在意味解析 サポートベクターマシン ニューラルネットワーク k近傍法 決定木(例えばID3) コンセプトマイニング 他にも、自然言語処理に基づく手法がある。 応用 電子メールのスパムを分離するスパムフィルタに応用されている 参考文献 Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47, 2002 Introduction to document classification Bibliography on Automated Text Categorization Bibliography on Query Classification TechTC - Technion Repository of Text Categorization Datasets David D. Lewis's Datasets 関連項目 分類 機械学習 - 教師あり学習、教師なし学習 文書検索 情報検索 テキストマイニング 表話編歴自然言語処理基礎用語 AI完全 Bag-of-words n-gram バイグラム トライグラム 計算言語学 自然言語理解 ストップワード(英語版) テキスト処理(英語版) テキスト分析 コロケーション抽出(英語版) コンセプト・マイニング(英語版) 共参照解析(英語版) 深い言語処理(英語版) 遠読(英語版) 情報抽出 固有表現抽出 オントロジー学習(英語版) 構文解析 品詞タグ付け(英語版) 意味役割付与 意味的類似性(英語版) 感情分析 用語抽出(英語版) テキストマイニング テキスト含意(英語版) Truecasing(英語版) 語義の曖昧性解消 語義推定(英語版) テキストセグメンテーション(英語版) 複合語用語処理(英語版) 見出し語化(英語版) 字句解析 テキストチャンキング ステミング(英語版) 文区切り(英語版) 単語区切り(英語版) 自動要約 複数文書要約(英語版) センテンス抽出(英語版) テキスト平易化(英語版) 機械翻訳 翻訳支援ツール 用例ベース(英語版) ルールベース(英語版) 統計的(英語版) 転送ベース(英語版) ニューラル 分布意味論(英語版)モデル BERT 単語文書行列(英語版) 明示的セマンティック分析(英語版) fastText(英語版) GloVe(英語版) 潜在意味解析 単語の埋め込み word2vec 言語資源、データセット・コーパス 種類・基準 Lexical resource(英語版) LLOD(英語版) 機械可読辞書(英語版) PropBank(英語版) 意味ネットワーク SKOS(英語版) コーパス 音声コーパス(英語版) 対訳コーパス(英語版) 日本語コーパス コーパス言語学 シソーラス ツリーバンク Universal Dependencies 低資源言語 データ BabelNet Bank of English(英語版) DBペディア フレームネット(英語版) Google Ngram Viewer ThoughtTreasure(英語版) UBY(英語版) WordNet 自動認識・データ取得(英語版) 音声認識 分節化 音声合成 自然言語生成 光学文字認識 トピックモデル 文書分類 潜在的ディリクレ配分法 パチンコ配分モデル レビュー支援ツール(英語版) 自動エッセイスコアリング(英語版) コンコーダンサー 文法チェッカー 入力予測 スペルチェッカ 構文推定(英語版) 自然言語ユーザーインターフェース(英語版) チャットボット(人工無脳) インタラクティブフィクション 質問応答システム バーチャルアシスタント 音声ユーザーインターフェース(英語版) 他のソフトウェア NLTK(英語版) spaCy カテゴリ Related Articles