15 天前

SSLAM:通过音频混合增强自监督模型在多声部声景中的表现

{Philip J B Jackson, Muhammad Awais, Armin Mustafa, Sara Atito, Tony Alex}
摘要

自监督预训练音频模型在现实系统中已得到广泛应用,尤其是在多模态大语言模型中。这些模型通常以“冻结”状态使用,其假设是自监督预训练已充分赋予其处理真实世界音频的能力。然而,一个关键问题仍待解答:在真实场景中,音频往往具有多声源重叠的复杂特性(即多音性,polyphonic),这些模型的实际表现究竟如何?当前的音频自监督学习(SSL)方法大多在以单音性音频为主的数据集上进行评估,例如环境音和语音数据。因此,SSL模型在多音性音频——这一自然场景中常见的特征——上的泛化能力尚未得到充分探索。这一局限性引发了人们对SSL模型在更真实音频环境中实际鲁棒性的担忧。为填补这一研究空白,我们提出了自监督音频混合学习(Self-Supervised Learning from Audio Mixtures, SSLAM),这是一种音频SSL研究的新方向。SSLAM旨在提升模型从多音性数据中学习的能力,同时保持在单音性数据上的优异性能。我们在以单音性为主的主流音频SSL基准数据集上对SSLAM进行了全面评估,并通过一系列高质量、公开可用的多音性数据集,与当前最先进的(SOTA)方法进行了系统的对比分析。实验结果表明,SSLAM不仅显著提升了模型在多音性音频上的表现,同时在标准音频SSL基准测试中也保持或超越了现有方法的性能。特别地,在AudioSet-2M(AS-2M)数据集上,SSLAM实现了最高达3.9%的性能提升,平均平均精度(mAP)达到50.2。在多音性数据集上,SSLAM在线性评估与微调两种场景下均取得了新的SOTA水平,mAP提升最高达9.1%。这些结果充分证明了SSLAM在多音性与单音性声景中的有效性,显著提升了音频自监督学习模型的整体性能。