15 天前
M2D-CLAP:掩码建模双通道融合CLAP以学习通用音频-语言表征
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto

摘要
对比语言-音频预训练(Contrastive Language-Audio Pre-training, CLAP)实现了音频的零样本(Zero-Shot, ZS)推理,并在多项分类任务中展现出优异性能。然而,在许多零样本不适用的任务中(如回归问题),传统的音频表示仍至关重要。为此,本文探索了一种新型通用音频-语言表示方法,该方法在零样本推理与迁移学习任务中均表现良好。为此,我们提出一种新方法——M2D-CLAP,该方法结合了自监督学习中的掩码建模双分支(Masked Modeling Duo, M2D)与CLAP。其中,M2D旨在学习能够有效建模音频信号的表示,而CLAP则将该表示与文本嵌入对齐。由此,M2D-CLAP能够学习到一种具备高度通用性的音频-语言表示,既支持零样本推理,也适用于迁移学习。实验结果表明,M2D-CLAP在线性评估、微调以及零样本分类任务中均表现优异,在GTZAN数据集上取得了75.17%的最新SOTA(State-of-the-Art)准确率,成功实现了通用型音频-语言表示。