2 个月前

FaceFormer:基于语音驱动的3D面部动画生成模型

Fan, Yingruo ; Lin, Zhaojiang ; Saito, Jun ; Wang, Wenping ; Komura, Taku
FaceFormer:基于语音驱动的3D面部动画生成模型
摘要

基于语音的3D面部动画由于人类面部的复杂几何结构以及3D音视频数据的有限可用性而具有挑战性。先前的研究通常集中在学习短音频窗口中的音素级特征,这些特征包含的上下文信息有限,有时会导致唇部运动不准确。为了解决这一局限性,我们提出了一种基于Transformer的自回归模型——FaceFormer,该模型能够编码长期音频上下文并自回归地预测一系列动画化的3D人脸网格。为了应对数据稀缺问题,我们集成了自监督预训练的语音表示。此外,我们设计了两种适用于此特定任务的偏置注意力机制,包括偏置跨模态多头(MH)注意力和带有周期位置编码策略的偏置因果MH自注意力。前者有效地对齐了音频-运动模态,而后者则提供了泛化到更长音频序列的能力。广泛的实验和感知用户研究表明,我们的方法优于现有的最先进方法。代码将对外公开。

FaceFormer:基于语音驱动的3D面部动画生成模型 | 最新论文 | HyperAI超神经