17 天前
基于二维信息的纯Transformer长期时间序列预测
Xin Cheng, Xiuying Chen, Shuqi Li, Di Luo, Xun Wang, Dongyan Zhao, Rui Yan

摘要
时间序列预测在理解与预测金融、经济、气候及医疗等多个领域中的复杂动态过程方面具有至关重要的作用。基于Transformer架构,现有方法主要分为两类:一类将同一时间戳下的多个变量编码为单一的时间片段(temporal token),以建模全局依赖关系;另一类则将各时间序列的时间点分别嵌入独立的变量子片段(variate token)。前者在学习以变量为中心的表示方面存在挑战,而后者则可能遗漏对精准预测至关重要的时间信息。在本研究中,我们提出GridTST模型,该模型通过引入基于原始Transformer架构的创新多方向注意力机制,融合了上述两种方法的优势。我们将输入的时间序列数据视为一个二维网格,其中横轴(x轴)表示时间步长,纵轴(y轴)表示变量(变量子序列)。对该网格进行垂直切片,可将每个时间步上的所有变量组合成一个时间片段(time token);而水平切片则将单个时间序列在所有时间步上的数据嵌入为一个变量片段(variate token)。相应地,我们设计了水平注意力机制,聚焦于时间片段,以捕捉不同时间步之间数据的关联性;同时引入垂直注意力机制,即面向变量的注意力机制,用于建模多变量之间的复杂相关性。这种双向结构使得模型能够高效地在时间维度与变量维度上协同处理信息,显著增强了模型的分析能力。此外,我们还引入了分块(patch)技术,将时间片段进一步划分为子序列级别的块,从而在嵌入过程中保留局部语义信息。实验结果表明,GridTST在多个真实世界数据集上均表现出持续领先的性能,达到了当前最优(state-of-the-art)水平。