2달 전

FaceFormer: Speech-Driven 3D Facial Animation with Transformers 페이스포머: 트랜스포머를 활용한 음성 기반 3D 얼굴 애니메이션

Fan, Yingruo ; Lin, Zhaojiang ; Saito, Jun ; Wang, Wenping ; Komura, Taku

초록

음성 기반 3D 얼굴 애니메이션은 인간 얼굴의 복잡한 기하학적 구조와 3D 오디오-비디오 데이터의 제한된 가용성으로 인해 도전적인 주제입니다. 이전 연구들은 주로 짧은 오디오 창에서 음소 수준의 특징을 학습하는데 초점을 맞추었으며, 때때로 부정확한 입술 움직임을 초래했습니다. 이러한 한계를 극복하기 위해, 우리는 장기 오디오 컨텍스트를 인코딩하고 3D 얼굴 메시 시퀀스를 자기 회귀적으로 예측하는 트랜스포머 기반 자기 회귀 모델인 FaceFormer를 제안합니다. 데이터 부족 문제를 해결하기 위해, 우리는 자가 감독 사전 훈련된 음성 표현들을 통합하였습니다. 또한, 이 특정 작업에 적합한 두 가지 편향 주의 메커니즘을 설계하였는데, 이는 편향된 크로스-모달 멀티헤드(MH) 주의와 주기적 위치 인코딩 전략을 사용하는 편향된 카우질 MH 자기 주의를 포함합니다. 전자는 효과적으로 오디오-모션 모달을 정렬하며, 후자는 더 긴 오디오 시퀀스에 일반화할 수 있는 능력을 제공합니다. 광범위한 실험과 지각 사용자 연구 결과, 우리의 접근 방식이 기존 최신 기술보다 우수함을 보여주었습니다. 코드는 공개될 예정입니다.