HyperAI超神经

摘要

本研究提出了一种基于循环神经网络转换器（RNN-T）架构的大规模音视频语音识别系统。为支持该系统的开发，我们构建了一个大规模的音视频（A/V）数据集，其中包含从公开YouTube视频中提取的分段语音内容，总计达31,000小时的音视频训练数据。我们在两个大词汇量测试集上对仅音频、仅视觉以及音视频融合三种系统进行了性能对比评估：一个是来自公开YouTube视频的语音片段集合YTDEV18，另一个是公开可用的LRS3-TED数据集。为进一步凸显视觉模态的贡献，我们还在YTDEV18数据集上引入了背景噪声和语音重叠等人工干扰，评估系统在恶劣条件下的表现。据我们所知，该系统在LRS3-TED数据集上的表现显著优于当前最先进的水平。

摘要

Takaki Makino Hank Liao Yannis Assael Brendan Shillingford Basilio Garcia Otavio Braga Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters

Takaki Makino Hank Liao Yannis Assael Brendan Shillingford Basilio Garcia Otavio Braga Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters

Takaki Makino Hank Liao Yannis Assael Brendan Shillingford Basilio Garcia Otavio Braga Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

用于音视频语音识别的循环神经网络转换器

Takaki Makino Hank Liao Yannis Assael Brendan Shillingford Basilio Garcia Otavio Braga Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

用于音视频语音识别的循环神经网络转换器

Takaki Makino Hank Liao Yannis Assael Brendan Shillingford Basilio Garcia Otavio Braga Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

用于音视频语音识别的循环神经网络转换器

Takaki Makino Hank Liao Yannis Assael Brendan Shillingford Basilio Garcia Otavio Braga Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters