초록

비디오 얼굴 교체는 영화 및 엔터테인먼트 제작에서 매우 중요한 기술이지만, 긴 복잡한 비디오 시퀀스에서 높은 품질과 시간적 일관성을 유지하는 것은 여전히 큰 도전 과제이다. 최근 참조 기반 이미지 편집 기술의 발전을 영감으로 삼아, 본 연구는 소스 비디오에서 추출한 풍부한 시각적 특성(visual attributes)이 비디오 얼굴 교체 시 품질과 시간적 일관성 향상에 유사하게 활용될 수 있는지 탐구한다. 이러한 통찰을 바탕으로, 본 연구는 세계 최초로 참조 기반 비디오 얼굴 교체 모델인 LivingSwap을 제안한다. 제안된 방법은 키프레임(keyframes)을 조건 신호로 사용하여 대상 인물의 정체성을 주입함으로써 유연하고 제어 가능한 편집을 가능하게 한다. 키프레임 조건과 비디오 참조 가이드를 결합함으로써, 모델은 시간적 연결(timelining)을 수행하여 긴 비디오 시퀀스 전반에 걸쳐 안정적인 정체성 보존과 높은 품질의 재구성 가능성을 확보한다. 참조 기반 학습을 위한 데이터 부족 문제를 해결하기 위해, 본 연구는 쌍으로 구성된 얼굴 교체 데이터셋 Face2Face를 구축하였으며, 데이터 쌍을 역전시켜 신뢰할 수 있는 지도 학습 레이블을 보장한다. 광범위한 실험을 통해 제안한 방법이 최신 기술 대비 우수한 성능을 달성함을 입증하였으며, 대상 인물의 정체성이 소스 비디오의 표정, 조명, 움직임과 자연스럽게 융합되면서, 제작 워크플로우에서의 수동 작업을 크게 줄이는 데 기여한다. 프로젝트 웹페이지: https://aim-uofa.github.io/LivingSwap

소스 PDF