12일 전
X2Face: 이미지, 오디오 및 자세 코드를 이용한 얼굴 생성 제어를 위한 네트워크
{Andrew Zisserman, Olivia Wiles, A. Sophia Koepke}

초록
본 논문의 목적은 주어진 얼굴의 자세와 표정을 다른 얼굴 또는 다른 모달리티(예: 오디오)를 이용하여 제어할 수 있는 신경망 모델을 개발하는 것이다. 이러한 모델은 가볍고 정교한 영상 및 이미지 편집에 활용될 수 있다. 본 연구는 다음과 같은 세 가지 기여를 한다. 첫째, 하나 이상의 프레임으로 지정된 소스 얼굴을, 드라이빙 프레임에 있는 다른 얼굴을 이용해 제어할 수 있는 네트워크인 X2Face를 제안한다. 이 모델은 소스 프레임의 정체성을 유지하면서 드라이빙 프레임의 얼굴 자세와 표정을 반영한 생성 프레임을 생성한다. 둘째, 대규모 영상 데이터 셋을 활용하여 네트워크를 완전히 자기지도 학습(self-supervised) 방식으로 훈련하는 방법을 제안한다. 셋째, 네트워크의 추가 학습 없이도 오디오 또는 자세 코드와 같은 다른 모달리티를 이용하여 생성 과정을 드라이빙할 수 있음을 보여준다. 다른 얼굴로 얼굴을 드라이빙하는 생성 결과를 최신의 자기지도/지도 학습 기법들과 비교하여 분석한 결과, 본 연구의 접근 방식이 입력 데이터에 대한 가정을 더 적게 두고 있어 타 방법보다 더 뛰어난 강건성(robustness)을 보임을 입증하였다. 또한 본 프레임워크를 활용한 영상 얼굴 편집 사례를 제시한다.