局所外れ値因子法

From Wikipedia, the free encyclopedia

異常検知における局所外れ値因子法(きょくしょはずれちいんしほう、: local outlier factor, LOF)は Markus M. Breunig、Hans-Peter Kriegel英語版、Raymond T. Ng、Jörg Sander によって2000年に提案されたアルゴリズムで、任意のデータ点での、近傍点に対する局所的な変動を測ることによって異常を発見するものである[1]

局所外れ値因子法は、コア距離 (core distance)や到達可能性距離 (reachability distance)等の概念をDBSCANOPTICS英語版といったアルゴリズムと共有しており、これらは局所密度の推定に用いられる[2]

LOFの基本的アイディア:ある点の局所密度をその近傍のものと比較する。点 A は近傍と比べて局所密度がずっと小さい。

局所外れ値因子法は局所密度の概念に基づいている。ここでの「局所(locality)」は 個の最近傍で与えられ、それらの距離によって密度が推定される。あるオブジェクトの局所密度をその近傍群の局所密度と比較することで、密度が同程度であるような領域と、周囲と比べて密度が有意に低い点を特定することができる。こうした点が外れ値だと考えられる。

局所密度は、その近傍から「到達(reach)」するのにかかる標準的距離を使って推定される。局所外れ値因子法での「到達可能性距離(reachability distance)」は、クラスタ内でより安定的な値が生じるよう追加的に定義された尺度である。

正式な定式化

を、オブジェクト k 番目の近傍までの距離とする。ここで k 個の最近傍とはこの距離以下の全てのオブジェクトの集合で、「タイ」が存在する場合は個数が k より大きくなり得ることに注意する。k 最近傍オブジェクトの集合を と書く。

到達可能性距離の図示。オブジェクト BC は等しい到達可能性距離を持つ(k=3)。一方、Dk 最近傍ではない。

この距離は、到達可能性距離(reachability distance)と呼ばれる値を定義するのに用いられる:

つまり、オブジェクト からの「到達可能性距離」は、それが 以上である限りは、2オブジェクト間の真の距離と一致する。k 最近傍集合( のコア(core)。DBSCANクラスタ解析を参照)は全て等距離だと見なせる。このような距離を考えるのは、結果をより安定的なものにするためである。これは対称的でないので、数学的定義上の距離にはなっていないことに注意する。 (常に の方を使うのはよくある誤りで[3]、そのような場合は Simplified-LOF と呼ばれるわずかに異なる手法になる[3]。)

オブジェクト の局所到達可能性密度(local reachability density)は

と定義される。これはオブジェクト の、その近傍群からの到達可能性距離の平均の逆数をとったものである。 から近傍へ到達する距離の平均ではなく(これは定義上 に等しい)、近傍から へ到達する距離の平均であることに注意する。オブジェクトが重なっている点ではこの値は無限大になり得る。

次に以下のようにして、近傍群と局所到達可能性密度が比較される。

これは「近傍群の局所到達可能性密度の平均」を「オブジェクト自身の局所到達可能性密度」で割ったものである。これが に近い値であるとき、オブジェクトはその近傍と同程度(similar)である(よって外れ値ではない)。 を下回るとき、その点は密度が高い領域(内部点(inlier))に位置する。 を有意に上回るとき、外れ値である。

LOF(k) ~ 1 は、近傍と同程度の密度であることを意味する。

LOF(k) < 1 は、近傍よりも高密度であることを意味する。

LOF(k) > 1 は、近傍よりも低密度であることを意味する。

利点

欠点および拡張

脚注

Related Articles

Wikiwand AI