11 天前

X2Face:一种基于图像、音频和姿态码控制人脸生成的网络

{Andrew Zisserman, Olivia Wiles, A. Sophia Koepke}
X2Face:一种基于图像、音频和姿态码控制人脸生成的网络
摘要

本文旨在提出一种神经网络模型,能够基于另一张人脸或其它模态(如音频)来控制目标人脸的姿态与表情。该模型可用于实现轻量级且高度精细的视频与图像编辑。本文主要做出以下三项贡献:第一,我们提出一种名为 X2Face 的网络架构,该模型可通过驱动帧中的人脸(即参考人脸)来控制源人脸(由一个或多个帧指定),生成具有源人脸身份特征,但姿态与表情与驱动帧中人脸一致的合成帧。第二,我们提出一种完全自监督的训练方法,利用大规模视频数据集对网络进行训练,无需依赖人工标注。第三,我们证明该生成过程可由其他模态(如音频信号或姿态编码)驱动,且无需对网络进行额外训练即可实现。我们在使用一张人脸驱动另一张人脸的生成效果方面,与当前最先进的自监督及监督方法进行了对比,结果表明,本方法具有更强的鲁棒性,因其对输入数据的假设更少、更宽松。此外,我们还展示了该框架在视频人脸编辑中的多种应用实例。

X2Face:一种基于图像、音频和姿态码控制人脸生成的网络 | 最新论文 | HyperAI超神经