11 天前

AnoShift:面向无监督异常检测的分布偏移基准

Marius Dragoi, Elena Burceanu, Emanuela Haller, Andrei Manolache, Florin Brad
AnoShift:面向无监督异常检测的分布偏移基准
摘要

在当今机器学习(ML)领域,分析数据分布变化(distribution shift)已成为一个日益重要的研究方向,推动了诸多新型基准测试的出现,这些基准旨在为研究机器学习模型泛化能力提供合适的场景。现有的基准测试主要集中于监督学习任务,据我们所知,目前尚无针对无监督学习的相应基准。为此,我们提出一个面向无监督异常检测的基准数据集,其数据随时间发生分布变化,该数据集基于 Kyoto-2006+——一个用于网络入侵检测的流量数据集构建。此类数据满足输入分布随时间变化的前提条件:覆盖长达十年的时间跨度,并包含自然发生的变化(例如用户行为模式的演变、软件更新等)。我们首先通过基础的单特征分析、t-SNE可视化以及最优传输(Optimal Transport)方法,量化不同年份之间整体数据分布的距离,从而揭示数据的非平稳特性。随后,我们提出 AnoShift 基准协议,将数据划分为独立同分布(IID)、近似分布(NEAR)和远距离分布(FAR)三类测试集,以系统评估模型在分布漂移下的性能表现。我们利用多种模型(从经典方法到深度学习模型)验证了模型性能随时间退化的现象。最后,我们证明:通过正确认识并有效应对分布变化问题,模型性能可显著优于传统训练范式(即假设数据独立同分布)。在我们的方法中,平均性能提升可达 3%。相关数据集与代码已开源,地址为:https://github.com/bit-ml/AnoShift/。

AnoShift:面向无监督异常检测的分布偏移基准 | 最新论文 | HyperAI超神经