15 天前

M2D-CLAP：掩码建模双通道融合CLAP以学习通用音频-语言表征

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto

摘要

对比语言-音频预训练（Contrastive Language-Audio Pre-training, CLAP）实现了音频的零样本（Zero-Shot, ZS）推理，并在多项分类任务中展现出优异性能。然而，在许多零样本不适用的任务中（如回归问题），传统的音频表示仍至关重要。为此，本文探索了一种新型通用音频-语言表示方法，该方法在零样本推理与迁移学习任务中均表现良好。为此，我们提出一种新方法——M2D-CLAP，该方法结合了自监督学习中的掩码建模双分支（Masked Modeling Duo, M2D）与CLAP。其中，M2D旨在学习能够有效建模音频信号的表示，而CLAP则将该表示与文本嵌入对齐。由此，M2D-CLAP能够学习到一种具备高度通用性的音频-语言表示，既支持零样本推理，也适用于迁移学习。实验结果表明，M2D-CLAP在线性评估、微调以及零样本分类任务中均表现优异，在GTZAN数据集上取得了75.17%的最新SOTA（State-of-the-Art）准确率，成功实现了通用型音频-语言表示。