7 个月前

音频和语音处理

计算机视觉

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

摘要

本研究的目标是在有或没有音频的情况下识别说话人脸所说的短语和句子。与以往专注于识别有限数量词汇或短语的工作不同，我们把唇读视为一个开放世界问题——即不受限制的自然语言句子和野外视频。我们的主要贡献包括：(1) 一种“观察、聆听、注意和拼写”（Watch, Listen, Attend and Spell, WLAS）网络，该网络能够学习将嘴部运动的视频转录为字符；(2) 一种课程学习策略，用于加速训练并减少过拟合；(3) 一个名为“唇读句子”（Lip Reading Sentences, LRS）的数据集，用于视觉语音识别，包含超过10万条来自英国电视的自然句子。在LRS数据集上训练的WLAS模型在标准唇读基准数据集上的表现超过了所有先前的研究工作，且通常具有显著的优势。该唇读性能在BBC电视视频中超越了专业唇读者的表现，同时我们还证明了即使在有音频的情况下，视觉信息也有助于提高语音识别的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

音频和语音处理

计算机视觉

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

摘要

本研究的目标是在有或没有音频的情况下识别说话人脸所说的短语和句子。与以往专注于识别有限数量词汇或短语的工作不同，我们把唇读视为一个开放世界问题——即不受限制的自然语言句子和野外视频。我们的主要贡献包括：(1) 一种“观察、聆听、注意和拼写”（Watch, Listen, Attend and Spell, WLAS）网络，该网络能够学习将嘴部运动的视频转录为字符；(2) 一种课程学习策略，用于加速训练并减少过拟合；(3) 一个名为“唇读句子”（Lip Reading Sentences, LRS）的数据集，用于视觉语音识别，包含超过10万条来自英国电视的自然句子。在LRS数据集上训练的WLAS模型在标准唇读基准数据集上的表现超过了所有先前的研究工作，且通常具有显著的优势。该唇读性能在BBC电视视频中超越了专业唇读者的表现，同时我们还证明了即使在有音频的情况下，视觉信息也有助于提高语音识别的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供