2 个月前
结合循环、卷积和连续时间模型与线性状态空间层
Albert Gu; Isys Johnson; Karan Goel; Khaled Saab; Tri Dao; Atri Rudra; Christopher Ré

摘要
循环神经网络(RNNs)、时间卷积和神经微分方程(NDEs)是用于时间序列数据的热门深度学习模型家族,各自在建模能力和计算效率方面具有独特的优点和权衡。我们提出了一种受控制理论启发的简单序列模型,该模型不仅泛化了这些方法,还解决了它们的不足之处。线性状态空间层(LSSL)通过模拟一个简单的线性连续时间状态空间表示 $\dot{x} = Ax + Bu, y = Cx + Du$ 来映射序列 $u \mapsto y$。理论上,我们证明了LSSL模型与上述三种模型家族密切相关,并继承了它们的优点。例如,它们将卷积泛化到连续时间域,解释了常见的RNN启发式算法,并具备NDEs的一些特性,如时间尺度适应。随后,我们将近期关于连续时间记忆化的理论纳入并加以推广,引入了一组可训练的结构化矩阵 $A$ 的子集,赋予LSSL长程记忆能力。实证研究中,将LSSL层堆叠成一个简单的深度神经网络,在涉及长依赖的时间序列基准测试中取得了最先进的结果,包括顺序图像分类、实际医疗回归任务和语音识别。在一个具有16000长度序列的复杂语音分类任务中,LSSL比先前的方法提高了24个百分点的准确率,并且在序列长度仅为其1/100的任务中也优于使用手工设计特征的基线方法。