11 天前
BYOL-S:通过自举法学习自监督语音表示
Gasser Elbanna, Neil Scheidwasser-Clow, Mikolaj Kegler, Pierre Beckmann, Karl El Hajal, Milos Cernak

摘要
自数十年前谱分析的开创性研究以来,音频与语音特征提取方法一直受到广泛关注。近年来的研究致力于构建通用的音频表征模型。例如,若在大规模音频数据集上进行训练,深度神经网络能够提取出最优的嵌入表示。本文在现有自监督学习方法的基础上,通过自举(bootstrapping)策略进行拓展,提出了多种编码器架构,并系统探讨了不同预训练数据集对模型性能的影响。最后,我们提出了一种新颖的训练框架,用于构建一种混合型音频表征,该表征融合了人工设计特征与数据驱动的 learned 特征。所有提出的音频表征均在 HEAR NeurIPS 2021 挑战赛中针对听觉场景分类与时间戳检测任务进行了评估。实验结果表明,在大多数 HEAR 挑战任务中,采用卷积 Transformer 作为编码器的混合模型表现出最优性能。