異常検知

異常検知（いじょうけんち、英: anomaly detection）や外れ値検知（はずれちけんち、英: outlier detection）とは、データマイニングにおいて、期待されるパターンまたはデータセット中の他のアイテムと一致しないアイテムやイベントや観測結果を識別すること^[1]。何が異常であるかを定義するのは、タスク次第ではあるものの、Varun Chandolaら^[1]は異常というのは通常の動作として明確に定義された概念に準拠しないデータパターンであると定義している。各タスクに適用すると通常、異常とは銀行詐欺（英語版）、クレジットカード不正利用、構造欠陥、医学的な問題、文書中の誤り検出、不審な行動検出、機械の故障検知などの問題に翻訳する。なお、異常（anomaly）は、外れ値（outlier）、珍しい物（novelty）、雑音（noise）、変動（deviation）、例外（exception）などとも呼ばれる^[2]。

特に悪用やネットワーク侵入検知の状況では、興味深いオブジェクトは多くの場合レアなオブジェクトではなく、活動中の予期されないバーストである。このパターンはレアオブジェクトとして外れ値の一般的な統計的定義に従わず、適切に集計されない限り、多くの外れ値検知法（特に教師なし手法）はそのようなデータで失敗する。代わりに、クラスタ分析アルゴリズムはそのようなパターンで形成されたマイクロクラスタを見つけることが可能である^[3]。

異常検知技術には大きく分けて3通りの分類がある。教師なし異常検知（unsupervised anomaly detection）手法は、データセット内のインスタンスの大多数は正常であるという仮定の下でデータセットの残りにほとんどフィットしないと思われるインスタンスを探すことによって、ラベル付されていないテストデータセットにある異常を見つける。教師あり異常検知（supervised anomaly detection）手法は「正常」と「異常」にラベル付されたデータセットを必要とし、分類器を訓練することを含む（他の多くの統計分類問題との決定的な違いは固有の外れ値検出の不均衡な性質である）。半教師あり異常検知（semi-supervised anomaly detection）手法は与えられた正常な訓練データセットから正常な振る舞いを表すモデルを構成し、そして学習したモデルによって生成されるテストインスタンスの尤度をテストする^[要出典]。

[1]

[2]

[3]

典拠管理データベース
国立図書館	アメリカイスラエル
その他	Yale LUX

異常検知

よく使われる手法

データセキュリティへの応用

関連項目

参考文献

Related Articles