11 天前

改进Transformer模型的位置编码以用于多变量时间序列分类

Navid Mohammadi Foumani, Chang Wei Tan, Geoffrey I. Webb, Mahsa Salehi
改进Transformer模型的位置编码以用于多变量时间序列分类
摘要

Transformer 在深度学习的众多应用中表现出色。当应用于时间序列数据时,Transformer 需要有效的位置编码机制以捕捉时间序列的顺序信息。然而,位置编码在时间序列分析中的有效性尚未得到充分研究,相关问题仍存在争议,例如:是采用绝对位置编码更优,还是相对位置编码更佳,抑或是两者的结合更为有效。为澄清这一问题,本文首先系统回顾了现有绝对位置编码与相对位置编码方法在时间序列分类任务中的应用。在此基础上,我们提出一种专为时间序列数据设计的新型绝对位置编码方法——时间绝对位置编码(Time Absolute Position Encoding, tAPE)。该方法在绝对位置编码中引入了序列长度与输入嵌入维度的信息,以增强编码的表达能力。此外,我们进一步提出一种计算高效的相对位置编码实现方式,称为高效相对位置编码(efficient Relative Position Encoding, eRPE),旨在提升模型在时间序列任务中的泛化性能。基于上述位置编码方法,我们提出一种新型多变量时间序列分类(Multivariate Time Series Classification, MTSC)模型——ConvTran。该模型融合了 tAPE 与 eRPE,并结合基于卷积的输入编码结构,以更有效地建模时间序列的位置信息与数据特征。所提出的绝对与相对位置编码方法具有结构简洁、计算高效的特点,可无缝集成至 Transformer 模块中,并广泛应用于下游任务,如预测、外生回归与异常检测等。在 32 个公开的多变量时间序列数据集上进行的大量实验表明,ConvTran 模型在分类精度上显著优于当前最先进的卷积神经网络与 Transformer 基础模型。相关代码与模型已开源,访问地址为:https://github.com/Navidfoumani/ConvTran。