2 个月前

MeshTalk:基于跨模态解耦的语音驱动3D人脸动画

Richard, Alexander ; Zollhoefer, Michael ; Wen, Yandong ; de la Torre, Fernando ; Sheikh, Yaser
MeshTalk:基于跨模态解耦的语音驱动3D人脸动画
摘要

本文提出了一种从语音生成完整面部3D动画的通用方法。现有的音频驱动面部动画方法存在诡异或静态的上半部面部动画,无法生成准确且合理的共发音(co-articulation),或者依赖于特定人物的模型,限制了其可扩展性。为了改进现有模型,我们提出了一种通用的音频驱动面部动画方法,该方法能够为整个面部实现高度逼真的运动合成结果。我们的方法的核心是一个用于面部动画的分类潜在空间,该空间通过一种新颖的跨模态损失(cross-modality loss)来解耦音频相关和音频无关的信息。这一方法不仅确保了嘴唇运动的高度准确性,还合成了与音频信号无关的面部部分(如眨眼和眉毛运动)的真实动画。我们展示了该方法在定性和定量方面均优于多个基线模型,并达到了当前最先进的质量水平。感知用户研究进一步表明,在超过75%的情况下,我们的方法被认为比目前最先进的技术更为真实。建议读者在阅读论文之前观看补充视频:https://github.com/facebookresearch/meshtalk

MeshTalk:基于跨模态解耦的语音驱动3D人脸动画 | 最新论文 | HyperAI超神经