2 个月前
掩码建模双子星:迈向通用音频预训练框架
Daisuke Niizumi; Daiki Takeuchi; Yasunori Ohishi; Noboru Harada; Kunio Kashino

摘要
利用掩码预测的自监督学习(Self-Supervised Learning, SSL)在通用音频表示方面取得了显著进展。本研究提出了一种改进的掩码预测SSL方法——Masked Modeling Duo(M2D),该方法通过预测被掩码输入信号的表示来作为训练信号进行学习。与传统方法不同,M2D仅对被掩码部分进行编码以获得训练信号,从而促使M2D中的两个网络更好地建模输入信号。尽管M2D在提升通用音频表示方面表现出色,但在实际应用中,如工业和医疗领域,专门化的表示仍然至关重要。这些领域的数据通常具有保密性和专有性,且数据量有限,分布与预训练数据集中的数据不同。因此,我们提出了针对特定应用X的Masked Modeling Duo扩展版(M2D for X, M2D-X),该方法扩展了M2D,以实现为特定应用X预训练专门化表示的能力。M2D-X不仅从M2D中学习,还引入了一个额外的任务和背景噪声作为输入。我们设计了这个额外任务以适应多种应用场景,而背景噪声则有助于在小规模数据上进行学习,并形成一个去噪任务,使表示更加鲁棒。通过这些设计选择,M2D-X 应能够学习到适用于各种应用需求的专门化表示。我们的实验结果证实,在通用音频、高度竞争的AudioSet和语音领域以及小规模医疗任务中所学到的表示均达到了顶级性能,展示了将我们的模型用作通用音频预训练框架的潜力。我们的代码已在线提供,供未来研究使用,网址为 https://github.com/nttcslab/m2d。