
要約
距離ベースの外れ値検出手法のスコアは解釈が困難であるため、追加的な文脈がなければ、正常データ点と外れ値データ点の間の閾値を決定することは難しい。本研究では、距離ベースの外れ値スコアを解釈可能な確率的推定値に変換する汎用的な手法を提示する。この変換は順位安定性を保ちつつ、正常データ点と外れ値データ点の間の対比を強化する。データ点間の距離関係を把握することは、データ内の近隣関係を特定する上で不可欠であるが、通常計算された距離の大部分は無視されがちである。本研究では、他のデータ点までの距離を用いて距離の確率分布をモデル化し、その分布を利用して距離ベースの外れ値スコアを外れ値確率に変換する手法を示す。実験結果から、この確率的変換は多数のテーブルデータおよび画像ベンチマークデータセットにおいて検出性能に影響を与えない一方で、正常サンプルと外れ値サンプルの間のスコア対比を明確にし、解釈性の高い外れ値スコアを実現することが明らかになった。本手法は、広範な距離ベースの外れ値検出手法に一般化可能であり、既存の距離計算を再利用するため、追加的な計算オーバーヘッドはほとんど生じない。