2 个月前

对比学习通用音频表示

Aaqib Saeed; David Grangier; Neil Zeghidour
对比学习通用音频表示
摘要

我们介绍了COLA(Contrastive Learning for Audio),这是一种用于学习音频通用表示的自监督预训练方法。该方法基于对比学习:它学习一种表示,使得从同一录音中提取的音频片段具有较高的相似度,而来自不同录音的片段则具有较低的相似度。我们在计算机视觉和强化学习领域的最新对比学习进展基础上,设计了一种轻量级且易于实现的音频自监督模型。我们在大规模Audioset数据库上预训练嵌入向量,并将这些表示迁移到9个不同的分类任务中,包括语音、音乐、动物声音和声学场景。实验结果表明,尽管该方法简单,但其性能显著优于之前的自监督系统。此外,我们还进行了消融研究以识别关键的设计选择,并发布了一个库来预训练和微调COLA模型。

对比学习通用音频表示 | 最新论文 | HyperAI超神经