HyperAI超神经

摘要

自数十年前谱分析的开创性研究以来，音频与语音特征提取方法一直受到广泛关注。近年来的研究致力于构建通用的音频表征模型。例如，若在大规模音频数据集上进行训练，深度神经网络能够提取出最优的嵌入表示。本文在现有自监督学习方法的基础上，通过自举（bootstrapping）策略进行拓展，提出了多种编码器架构，并系统探讨了不同预训练数据集对模型性能的影响。最后，我们提出了一种新颖的训练框架，用于构建一种混合型音频表征，该表征融合了人工设计特征与数据驱动的 learned 特征。所有提出的音频表征均在 HEAR NeurIPS 2021 挑战赛中针对听觉场景分类与时间戳检测任务进行了评估。实验结果表明，在大多数 HEAR 挑战任务中，采用卷积 Transformer 作为编码器的混合模型表现出最优性能。

摘要

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

摘要

用 AI 构建 AI

HyperAI Newsletters

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

摘要

用 AI 构建 AI

HyperAI Newsletters

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

BYOL-S：通过自举法学习自监督语音表示

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

BYOL-S：通过自举法学习自监督语音表示

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

BYOL-S：通过自举法学习自监督语音表示

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

摘要

用 AI 构建 AI

HyperAI Newsletters