6 个月前

计算机视觉

卷积神经网络

计算机视觉

Li Liu Matti Pietikäinen Huiying Xu Xinzhong Zhu Changchong Sheng

摘要

本研究的目标是在未提供音频的情况下，仅通过说话人脸的视频来识别其说出的词汇、短语和句子。当前基于深度学习的唇读方法主要聚焦于视频的外观特征与光流信息的挖掘。然而，这些方法并未充分挖掘唇部运动的内在特性。除了外观和光流信息外，口部轮廓的形变通常也蕴含着与前者互补的重要信息，但相较于外观和光流建模，动态口部轮廓的建模至今仍鲜受关注。为此，本文提出一种新型动态口部轮廓建模方法——自适应语义-时空图卷积网络（Adaptive Semantic-Spatio-Temporal Graph Convolution Network, ASST-GCN），通过自动从视频中学习空间与时间维度的特征，超越现有方法的局限性。为进一步融合外观信息与口部轮廓信息的互补优势，本文设计了一种双流视觉前端网络。实验结果表明，所提出的方法在多个大规模唇读基准数据集上显著优于当前最先进的唇读技术。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

卷积神经网络

计算机视觉

Li Liu Matti Pietikäinen Huiying Xu Xinzhong Zhu Changchong Sheng

摘要

本研究的目标是在未提供音频的情况下，仅通过说话人脸的视频来识别其说出的词汇、短语和句子。当前基于深度学习的唇读方法主要聚焦于视频的外观特征与光流信息的挖掘。然而，这些方法并未充分挖掘唇部运动的内在特性。除了外观和光流信息外，口部轮廓的形变通常也蕴含着与前者互补的重要信息，但相较于外观和光流建模，动态口部轮廓的建模至今仍鲜受关注。为此，本文提出一种新型动态口部轮廓建模方法——自适应语义-时空图卷积网络（Adaptive Semantic-Spatio-Temporal Graph Convolution Network, ASST-GCN），通过自动从视频中学习空间与时间维度的特征，超越现有方法的局限性。为进一步融合外观信息与口部轮廓信息的互补优势，本文设计了一种双流视觉前端网络。实验结果表明，所提出的方法在多个大规模唇读基准数据集上显著优于当前最先进的唇读技术。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供