7 个月前

统一多模态

计算机视觉

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

摘要

唇读是指从说话者口型运动中解码文字的任务。传统方法将这一问题分为两个阶段：设计或学习视觉特征，以及预测。近年来，深度唇读方法实现了端到端的可训练性（Wand等人，2016；Chung和Zisserman，2016a）。然而，现有的端到端训练模型仅能进行单词分类，而不能进行句子级别的序列预测。研究表明，人类唇读性能随着单词长度的增加而提高（Easton和Basala，1982），这表明在模糊的通信渠道中，捕捉时间上下文的特征非常重要。受此观察的启发，我们提出了LipNet模型，该模型将可变长度的视频帧序列映射为文本，利用时空卷积、循环网络和连接时序分类损失函数，并且完全以端到端的方式进行训练。据我们所知，LipNet是首个能够同时学习时空视觉特征和序列模型的端到端句子级别唇读模型。在GRID语料库上，LipNet在句子级别的重叠说话者分割任务中达到了95.2%的准确率，超过了经验丰富的唇读专家和之前86.4%的单词级别最先进准确率（Gergen等人，2016）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

统一多模态

计算机视觉

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

摘要

唇读是指从说话者口型运动中解码文字的任务。传统方法将这一问题分为两个阶段：设计或学习视觉特征，以及预测。近年来，深度唇读方法实现了端到端的可训练性（Wand等人，2016；Chung和Zisserman，2016a）。然而，现有的端到端训练模型仅能进行单词分类，而不能进行句子级别的序列预测。研究表明，人类唇读性能随着单词长度的增加而提高（Easton和Basala，1982），这表明在模糊的通信渠道中，捕捉时间上下文的特征非常重要。受此观察的启发，我们提出了LipNet模型，该模型将可变长度的视频帧序列映射为文本，利用时空卷积、循环网络和连接时序分类损失函数，并且完全以端到端的方式进行训练。据我们所知，LipNet是首个能够同时学习时空视觉特征和序列模型的端到端句子级别唇读模型。在GRID语料库上，LipNet在句子级别的重叠说话者分割任务中达到了95.2%的准确率，超过了经验丰富的唇读专家和之前86.4%的单词级别最先进准确率（Gergen等人，2016）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供