
摘要
世界上许多数据都是流式时间序列数据,在关键情况下,异常情况提供了重要的信息;例如在金融、信息技术、安全、医疗和能源等领域中,这样的例子比比皆是。然而,在流式数据中检测异常是一项艰巨的任务,需要检测器实时处理数据,而不是批量处理,并且在进行预测的同时不断学习。目前还没有足够的基准来充分测试和评估实时异常检测器的有效性。为此,我们提出了Numenta异常基准(NAB),旨在提供一个受控且可重复的开源工具环境,用于测试和衡量流式数据上的异常检测算法。理想的检测器应当能够尽早发现所有异常情况,不触发任何误报,适用于多个领域的实际时间序列数据,并能自动适应统计特征的变化。这些特性在NAB中通过为流式数据设计的评分算法得到了形式化的奖励。NAB使用带有标签的实际时间序列数据集对检测器进行评估。本文介绍了这些组成部分,并给出了几种开源且商业上使用的算法的结果和分析。NAB的目标是为研究社区提供一个标准的、开源的框架,以便比较和评估不同的流式数据异常检测算法。