局所性鋭敏型ハッシュ

From Wikipedia, the free encyclopedia

局所性鋭敏型ハッシュ(きょくしょせいえいびんがたハッシュ、英語: locality sensitive hashing)とは高次元のデータを確率的な処理によって次元圧縮するための手法である。ハッシュの基本的な考え方は類似したデータが高確率で同じバケットに入るようにデータを整理するというものである。多くの場合においてこのバケットの数は入力されるデータサンプルの数よりもずっと小さくなる。

局所性鋭敏型ハッシュを行うためのパラメータの集合をLSH族(Locality Sensitive Hashing Family)と呼ぶ。LSH族は距離空間と閾値、近似因子によって定義される。LSH族[1][2]は2点について次の2つの性質、

  • ならばとなる確率は以上である。
  • ならばとなる確率は以下である。

を満たす関数により与えられるであり,から一様乱数にしたがって選択される。このときは2点の距離を表す関数であり、となるよう設計する。このような族に鋭敏であるという。

これに準ずる定義として、領域における類似度関数によるものがある[3]。局所性鋭敏型ハッシュの性質は、ハッシュ関数の集合と確率分布により与えられる。あるハッシュ関数は集合から確率分布により選ばれるが、とは領域に存在する2点について、

を満たすような確率分布である。

手法

出典

関連項目

Related Articles

Wikiwand AI