2 个月前

SSAMBA:基于Mamba状态空间模型的自监督音频表示学习

Siavash Shams; Sukru Samet Dindar; Xilin Jiang; Nima Mesgarani
SSAMBA:基于Mamba状态空间模型的自监督音频表示学习
摘要

变压器(Transformers)已经革新了包括音频表示学习在内的多种深度学习任务,这得益于其强大的建模能力。然而,它们通常在GPU内存使用和计算推理时间上面临二次复杂度的问题,影响了其效率。最近,状态空间模型(State Space Models, SSMs)如Mamba逐渐成为一种有前景的替代方案,通过避免这些复杂度问题提供了更加高效的方法。鉴于这些优势,我们探讨了基于SSM的模型在音频任务中的潜力。本文中,我们介绍了自监督音频Mamba(Self-Supervised Audio Mamba, SSAMBA),这是首个用于音频表示学习的自监督、无注意力机制且基于SSM的模型。SSAMBA利用双向Mamba有效地捕捉复杂的音频模式。我们引入了一个自监督预训练框架,该框架优化了判别性和生成性目标,使模型能够从大规模未标记数据集中学习到鲁棒的音频表示。我们在多个任务上对SSAMBA进行了评估,包括音频分类、关键词检测和说话人识别。结果表明,在大多数任务中,SSAMBA的表现优于自监督音频频谱变换器(Self-Supervised Audio Spectrogram Transformer, SSAST)。特别值得注意的是,在输入令牌大小为22k的小型模型尺寸下,SSAMBA的批量推理速度比SSAST快约92.7%,并且内存使用效率高约95.4%。这些效率提升与卓越性能相结合,突显了SSAMBA架构创新的有效性,使其成为广泛音频处理应用中的一个有吸引力的选择。

SSAMBA:基于Mamba状态空间模型的自监督音频表示学习 | 最新论文 | HyperAI超神经