
摘要
我们介绍了一种名为Centaurus的网络架构,该架构由广义状态空间模型(SSM)模块组成,在训练过程中可以将SSM操作视为张量收缩。然后,可以通过系统性方法为每个SSM模块确定最优的张量收缩顺序,以最大化训练效率。这使得在设计SSM模块时具有更大的灵活性,而不仅仅局限于常见的深度可分离配置。新的设计选择将借鉴经典卷积模块中的设计理念,包括组卷积、全卷积和瓶颈模块。我们在Centaurus网络中采用了这些模块的混合架构,以平衡网络规模和性能,同时提高训练和推理过程中的内存和计算效率。实验结果表明,这种异构网络设计在原始音频处理任务中(如关键词检测、语音降噪和自动语音识别(ASR))优于其同质化竞争对手。对于ASR任务,Centaurus是首个完全基于状态空间模型且具有竞争力性能的网络,无需使用任何非线性递归(如LSTMs)、显式卷积(如CNNs)或注意力机制(或替代注意力机制)。源代码作为补充材料发布在https://openreview.net/forum?id=PkpNRmBZ32。