Zekai Luo Zongze Du Zhouhang Zhu Hao Zhong Muzhi Zhu Wen Wang Yuling Xi Chenchen Jing Hao Chen Chunhua Shen

摘要
视频人脸替换在影视与娱乐制作中具有重要意义,然而在长且复杂的视频序列中实现高保真度与时间一致性仍是重大挑战。受近期参考引导图像编辑技术进展的启发,本文探讨了是否可借鉴源视频中丰富的视觉属性,以提升视频人脸替换在保真度与时间连贯性方面的表现。基于这一洞察,本文提出LivingSwap——首个基于视频参考引导的人脸替换模型。该方法采用关键帧作为条件信号,注入目标身份信息,从而实现灵活且可控的编辑。通过结合关键帧条件与视频参考引导,模型能够进行时间上的连续拼接,确保在长视频序列中稳定保留身份特征,并实现高保真重建。为应对参考引导训练数据稀缺的问题,我们构建了一个成对的人脸替换数据集Face2Face,并进一步对数据对进行逆向处理,以确保可靠的真值监督。大量实验表明,所提方法在性能上达到当前最优水平,能够自然融合目标身份与源视频的表情、光照与运动特征,显著降低制作流程中的手动干预成本。项目主页:https://aim-uofa.github.io/LivingSwap