2달 전

FaceDiffuser: 음성 구동 3D 얼굴 애니메이션 합성 기법 사용

Stan, Stefan ; Haque, Kazi Injamamul ; Yumak, Zerrin
FaceDiffuser: 음성 구동 3D 얼굴 애니메이션 합성 기법 사용
초록

음성 기반 3D 얼굴 애니메이션 합성은 산업계와 연구 분야에서 모두 어려운 과제였습니다. 최근의 방법들은 대부분 결정론적인 딥러닝 방법에 초점을 맞추고 있어, 음성 입력이 주어지면 출력은 항상 동일합니다. 그러나 실제로는 얼굴 전체에 존재하는 비언어적 얼굴 신호들이 본질적으로 비결정론적입니다. 또한, 대부분의 접근 방식은 3D 정점 기반 데이터셋에 집중하고 있으며, 기존의 얼굴 애니메이션 파이프라인과 호환되는 릭된 캐릭터를 위한 방법은 드물�습니다. 이러한 문제들을 해결하기 위해, 우리는 3D 정점과 블렌드셰입 기반 데이터셋으로 훈련된 음성 기반 얼굴 애니메이션을 생성하는 비결정론적인 딥러닝 모델인 FaceDiffuser를 제시합니다. 우리의 방법은 확산 기법을 바탕으로 하며, 사전 훈련된 대규모 음성 표현 모델인 HuBERT를 사용하여 오디오 입력을 인코딩합니다. 최선의 지식 범위 내에서, 우리는 음성 기반 3D 얼굴 애니메이션 합성을 위한 확산 방법을 처음으로 활용한 것으로 알려져 있습니다. 우리는 광범위한 객관적 및 주관적 분석을 수행하였으며, 결과가 최신 방법들과 비교해 더 나은 혹은 유사한 성능을 보임을 입증하였습니다. 또한, 블렌드셰입 기반 릉크된 캐릭터를 기반으로 한 새로운 자체 데이터셋을 소개합니다. 부록 영상을 시청하는 것을 추천드립니다. 코드와 데이터셋은 공개될 예정입니다.

FaceDiffuser: 음성 구동 3D 얼굴 애니메이션 합성 기법 사용 | 최신 연구 논문 | HyperAI초신경