8 个月前

多模态表征

音频和语音处理

Ziqiao Peng Yihao Luo Yue Shi Hao Xu Xiangyu Zhu Jun He Hongyan Liu Zhaoxin Fan

摘要

基于语音驱动的3D面部动画技术，扩展其在各种多媒体领域的应用。以往的研究已经从音频信号中生成了令人满意的逼真唇部运动和面部表情。然而，传统的仅由数据驱动的回归模型面临几个关键问题，例如难以获取精确标签以及不同模态之间的域差距，导致生成的结果缺乏精度和连贯性。为了提高生成唇部运动的视觉准确性并减少对标注数据的依赖，我们提出了一种新的框架SelfTalk，通过在跨模态网络系统中引入自监督学习来学习3D说话人脸。该框架构建了一个包含三个模块的网络系统：面部动画生成器、语音识别器和唇读解释器。SelfTalk的核心是一个交换训练图（commutative training diagram），它促进了音频、文本和唇形之间兼容特征的交换，使我们的模型能够学习这些因素之间的复杂联系。所提出的框架利用从唇读解释器中学到的知识生成更加合理的唇形。广泛的实验和用户研究证明，我们提出的方法在定性和定量方面均达到了最先进的性能。建议观看补充视频。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

音频和语音处理

Ziqiao Peng Yihao Luo Yue Shi Hao Xu Xiangyu Zhu Jun He Hongyan Liu Zhaoxin Fan

摘要

基于语音驱动的3D面部动画技术，扩展其在各种多媒体领域的应用。以往的研究已经从音频信号中生成了令人满意的逼真唇部运动和面部表情。然而，传统的仅由数据驱动的回归模型面临几个关键问题，例如难以获取精确标签以及不同模态之间的域差距，导致生成的结果缺乏精度和连贯性。为了提高生成唇部运动的视觉准确性并减少对标注数据的依赖，我们提出了一种新的框架SelfTalk，通过在跨模态网络系统中引入自监督学习来学习3D说话人脸。该框架构建了一个包含三个模块的网络系统：面部动画生成器、语音识别器和唇读解释器。SelfTalk的核心是一个交换训练图（commutative training diagram），它促进了音频、文本和唇形之间兼容特征的交换，使我们的模型能够学习这些因素之间的复杂联系。所提出的框架利用从唇读解释器中学到的知识生成更加合理的唇形。广泛的实验和用户研究证明，我们提出的方法在定性和定量方面均达到了最先进的性能。建议观看补充视频。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供