TSMixer:面向多变量时间序列预测的轻量级MLP-Mixer模型

Transformer模型因其能够捕捉长序列依赖关系而在时间序列预测中广受欢迎。然而,其高昂的内存与计算需求成为长期预测任务中的关键瓶颈。为解决这一问题,我们提出TSMixer——一种轻量级神经架构,完全由多层感知机(MLP)模块构成,专用于分块时间序列上的多变量预测与表征学习。受MLP-Mixer在计算机视觉领域成功应用的启发,我们将该架构迁移至时间序列场景,克服了相关挑战,并引入经过验证的组件以提升预测精度。其中,我们提出一种创新的设计范式:在MLP-Mixer主干网络上附加在线校正头(online reconciliation heads),以显式建模时间序列的层级结构与通道相关性等关键特性。此外,我们还提出一种新型混合通道建模机制,并引入简单的门控策略,有效处理噪声通道交互问题,并增强模型在多样化数据集间的泛化能力。通过整合这些轻量化组件,TSMixer显著提升了简单MLP结构的学习能力,在计算资源消耗极低的前提下,性能超越了复杂的Transformer模型。同时,TSMixer采用模块化设计,兼容监督学习与掩码自监督学习方法,展现出作为时间序列基础模型(Time-Series Foundation Models)核心构建单元的巨大潜力。实验结果表明,TSMixer在预测任务中相较于当前最优的MLP与Transformer模型,性能提升达8%至60%;在与最新Patch-Transformer基准模型对比时,仍能实现1%至2%的性能超越,同时在内存占用与运行时间上降低2至3倍。我们已将该模型的源代码正式发布于Hugging Face,项目名称为PatchTSMixer。模型页面:https://huggingface.co/docs/transformers/main/en/model_doc/patchtsmixer示例代码:https://github.com/ibm/tsfm/#notebooks-links