11日前

AnoShift:教師なし異常検出における分布シフトベンチマーク

Marius Dragoi, Elena Burceanu, Emanuela Haller, Andrei Manolache, Florin Brad
AnoShift:教師なし異常検出における分布シフトベンチマーク
要約

近年の機械学習(ML)において、データの分布シフト(distribution shift)の分析は注目される研究分野となっており、MLモデルの一般化特性を検討するための適切なシナリオを提供することを目的とした新たなベンチマークが次々と登場している。現存するベンチマークは主に教師あり学習に焦点を当てており、筆者らの知る限り、教師なし学習向けのものは存在しない。そこで本研究では、時間とともに分布が変化するデータを用いた教師なし異常検出のベンチマーク「AnoShift」を提案する。このベンチマークは、ネットワーク侵入検出用のトラフィックデータセット「Kyoto-2006+」を基盤として構築されたものであり、入力分布のシフトという前提を満たす特徴を持つ。具体的には、10年という長期間にわたるデータをカバーしており、ユーザーの行動パターンの変化やソフトウェアの更新といった自然発生的な変化が継続的に観測されている。まず、データの非定常性(non-stationarity)を明らかにするために、各特徴量ごとの基本的な分析、t-SNEを用いた可視化、および最適輸送(Optimal Transport)を用いた年間間の全体的な分布距離の測定を実施した。次に、データをIID(独立同分布)、NEAR(近傍)、FAR(遠方)のテスト分割に分けるプロトコル「AnoShift」を提案した。さまざまなモデル(古典的手法から深層学習まで)を用いて、時間経過に伴う性能低下を検証した結果、分布シフトがモデルの一般化性能に顕著な影響を与えることが示された。さらに、分布シフトの問題を認識し、適切に対処することで、従来の独立同分布(IID)を仮定した訓練手法と比較して、平均で最大3%の性能向上が達成可能であることを示した。本研究で用いたデータセットおよびコードは、https://github.com/bit-ml/AnoShift/ にて公開されている。

AnoShift:教師なし異常検出における分布シフトベンチマーク | 最新論文 | HyperAI超神経