18 天前

ClaSP — 无参数时间序列分割

Arik Ermshaus, Patrick Schäfer, Ulf Leser
ClaSP — 无参数时间序列分割
摘要

自然过程与人为过程的研究通常会产生一系列按时间顺序排列的数值,即时间序列(Time Series, TS)。这类过程往往包含多个状态,例如机器的运行模式,观测过程中的状态变化会导致测量值分布形态的变化。时间序列分割(Time Series Segmentation, TSS)旨在事后识别这些变化,从而推断数据生成过程的演变。TSS通常被建模为无监督学习问题,目标是识别在某些统计特性上可区分的片段。然而,现有的TSS算法通常依赖于领域相关的超参数设置,或对时间序列值的分布形式及可检测变化类型做出假设,这在很大程度上限制了其适用性。常见的超参数包括片段内一致性度量和变化点数量,这些参数对不同数据集的调优尤为困难。本文提出ClaSP——一种新颖、高精度、无需超参数且领域无关的时间序列分割方法。ClaSP通过层次化方式将时间序列划分为两部分:对于每一个可能的分割点,训练一个二分类时间序列分类器,以判断子序列属于哪一划分区域,并选择分类性能最优的分割点作为变化点。ClaSP通过两种新颖的专用算法,从数据中自动学习其核心的两个模型参数。在包含107个数据集的基准测试中,实验结果表明,ClaSP在分割准确性方面显著优于现有最先进方法,同时具备高效性与良好的可扩展性。此外,本文通过多个真实世界案例研究,进一步展示了ClaSP的实用特性与优势。