要約
現実世界において、混合型データ(Mixed-type data)は広く存在するが、それらに対応した異常検出手法は極めて限られている。既存の一部の手法は特徴量変換によって混合型データを処理しているが、変換に伴う情報損失やノイズの増加により性能が低下するという問題がある。他方、数値型とカテゴリカル型の特徴量を別々に評価するアプローチも存在するが、これらは異なる特徴空間におけるデータオブジェクトの挙動を十分に考慮できず、結果として最適でない検出性能を示すことが多い。また、異常の形態として、クラスタ型異常と散在型異常の両方が多くの実世界データに含まれているにもかかわらず、多くの異常検出手法はその定義上、両者を同時に検出することが inherently に制限されている。これらの課題に対処するために、本研究では未監視型の異常検出手法MIXを提案する。MIXは、数値空間とカテゴリカル空間における異常度評価の間で継続的に情報共有と協調を実現するための共同学習フレームワークを構築する。具体的には、MIXは数値空間とカテゴリカル空間で逐次的に異常度スコアリングを実行し、それぞれのスコアリングフェーズが他方の特徴空間から得られる事前知識を用いて逐次的に強化される。クラスタ型異常と散在型異常の両方を対象とするために、異常度スコアリングフェーズは、正常モデルからの逸脱度を評価するという異常の本質的特徴を捉える。実験結果から、MIXは12の実世界データセットにおいて8つの最先端異常検出手法を顕著に上回り、優れたスケーラビリティも示した。