HyperAIHyperAI

Command Palette

Search for a command to run...

BYOL-S:通过自举法学习自监督语音表示

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

摘要

自数十年前谱分析的开创性研究以来,音频与语音特征提取方法一直受到广泛关注。近年来的研究致力于构建通用的音频表征模型。例如,若在大规模音频数据集上进行训练,深度神经网络能够提取出最优的嵌入表示。本文在现有自监督学习方法的基础上,通过自举(bootstrapping)策略进行拓展,提出了多种编码器架构,并系统探讨了不同预训练数据集对模型性能的影响。最后,我们提出了一种新颖的训练框架,用于构建一种混合型音频表征,该表征融合了人工设计特征与数据驱动的 learned 特征。所有提出的音频表征均在 HEAR NeurIPS 2021 挑战赛中针对听觉场景分类与时间戳检测任务进行了评估。实验结果表明,在大多数 HEAR 挑战任务中,采用卷积 Transformer 作为编码器的混合模型表现出最优性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供