
摘要
序列建模的一个核心目标是设计一种单一且有原则的模型,该模型能够处理多种模态和任务中的序列数据,特别是在长距离依赖方面。尽管传统的模型(如RNN、CNN和Transformer)已经发展出专门的变体来捕捉长距离依赖关系,但它们在扩展到10000步或更长的序列时仍然面临挑战。最近提出的一种有前景的方法是通过模拟基本的状态空间模型(SSM)( x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) )来建模序列,并证明了对于适当选择的状态矩阵 ( A ),该系统能够在数学上和实验中有效处理长距离依赖关系。然而,这种方法具有极高的计算和内存需求,使其作为通用序列建模解决方案变得不可行。我们提出了基于SSM的新参数化方法的结构化状态空间序列模型(Structured State Space sequence model, S4),并展示了它可以在保持理论优势的同时比先前的方法更高效地进行计算。我们的技术包括对 ( A ) 进行低秩修正,从而使其能够稳定地对角化,并将SSM简化为已广泛研究的Cauchy核计算问题。S4在多个已建立的基准测试中取得了强大的实证结果,具体包括:(i) 在无需数据增强或辅助损失的情况下,在顺序CIFAR-10数据集上达到91%的准确率,与更大的2D ResNet相当;(ii) 在图像和语言建模任务中显著缩小与Transformer的差距,同时生成速度提高60倍;(iii) 在Long Range Arena基准测试的所有任务中均达到最佳性能(SoTA),包括解决长度为16k的具有挑战性的Path-X任务,而所有先前的工作在此任务上均未能成功,同时其效率与所有竞争对手相当。