
要約
画像データに対する非教師付き異常検出は、広く知られるように不安定である。我々は、この原因が多くの古典的な異常検出手法がデータが低次元であることを暗黙のうちに仮定しているためだと考えている。しかし、画像データは常に高次元である。画像は低次元の埋め込み(embedding)に射影可能であるが、そのような射影は局所的な変動を無視するようなグローバル変換に依存しており、微細な変動が切り捨てられてしまう。異常は稀であるため、最終的な埋め込みには正常なサンプルと異常を区別するのに必要な重要な変動が欠けてしまうことが多い。本論文では、局所的に変化するデータ射影の集合を用いた新たな埋め込み手法を提案する。各射影は、特定の局所クラスタ内のサンプル群と他のすべてのサンプル群との違いを保持する役割を担う。この局所的に変化する埋め込みにより、異常を区別するための変動が保持されるとともに、各クラスタに対応する一次元の局所射影から、あるサンプルがそのクラスタに属する確率を統計的に推定できる。サンプルのクラスタ所属確率を統計的に集約することで、そのサンプルがデータセット全体に対してどれだけ類似しているかを示すグローバルな類似度指標が得られ、異常はその類似度スコアが予期せず低くなるサンプルとして浮き彫りとなる。