2달 전
CodeTalker: 이산 운동 사전을 이용한 음성 구동 3D 얼굴 애니메이션
Xing, Jinbo ; Xia, Menghan ; Zhang, Yuechen ; Cun, Xiaodong ; Wang, Jue ; Wong, Tien-Tsin

초록
음성 기반 3D 얼굴 애니메이션은 광범위하게 연구되어 왔지만, 현실감과 생동감을 달성하는 데 여전히 한계가 있습니다. 이는 매우 불안정한 특성과 오디오-비주얼 데이터의 부족 때문입니다. 기존 연구들은 주로 크로스-모달 매핑을 회귀 작업으로 정식화하여, 평균 회귀 문제로 인해 과도하게 부드러운 얼굴 운동을 생성하는 경향이 있습니다. 본 논문에서는 학습된 코드북의 유한 프록시 공간에서 음성 기반 얼굴 애니메이션을 코드 쿼리 작업으로 설정함으로써, 크로스-모달 매핑의 불확실성을 줄여 생성된 운동의 생동감을 효과적으로 향상시키는 방법을 제안합니다. 코드북은 실제 얼굴 운동에 대한 자기 재구성을 통해 학습되므로, 현실적인 얼굴 운동 사전 지식이 내재되어 있습니다. 이산적 운동 공간에서 시퀀셜 자동회귀 모델이 사용되어 입력 음성 신호로부터 순차적으로 얼굴 운동을 합성하며, 이를 통해 입술 동기화와 타당한 얼굴 표현을 보장합니다. 우리는 본 접근법이 현재 최신 방법론들보다 질적 및 양적으로 우수하다는 것을 증명하였으며, 사용자 연구를 통해 우리 접근법의 지각적 품질 우수성이 추가로 검증되었습니다.