摘要
我们正面临流式时间序列数据可用性的急剧增长。这一趋势主要由联网实时数据源的兴起所驱动,这类数据带来了显著的技术挑战与机遇。流式分析的一项基础能力,是在无监督条件下对每个数据流进行建模,并实现实时异常行为检测。早期异常检测具有重要价值,但在实际应用中却难以可靠实现。由于应用需求要求系统必须实时处理数据,而非采用批处理方式,这进一步增加了实现难度。此外,流式数据天然存在概念漂移(concept drift)现象,因此更倾向于采用能够持续学习的算法。同时,实际场景中存在海量独立的数据流,这就要求异常检测器必须完全自动化。本文提出了一种满足上述约束条件的新型异常检测算法。该方法基于一种名为层级时间记忆(Hierarchical Temporal Memory, HTM)的在线序列记忆算法。我们还利用Numenta异常检测基准(Numenta Anomaly Benchmark, NAB)展示了实验结果。NAB是首个此类基准,包含带有异常标签的真实世界数据流,为在流式数据上测试异常检测算法提供了一个受控的开源环境。本文在该基准上对多种算法进行了广泛的结果评估与分析,并探讨了流式分析这一新兴领域未来面临的关键挑战。