2달 전

FaceXHuBERT: Self-Supervised Speech Representation Learning을 이용한 텍스트 없는 음성 기반 표현력 있는 3D 얼굴 애니메이션 합성

Haque, Kazi Injamamul ; Yumak, Zerrin
FaceXHuBERT: Self-Supervised Speech Representation Learning을 이용한 텍스트 없는 음성 기반 표현력 있는 3D 얼굴 애니메이션 합성
초록

본 논문은 FaceXHuBERT를 소개합니다. FaceXHuBERT는 음성만으로 3D 얼굴 애니메이션을 생성하는 방법으로, 개인화된 미묘한 음성 신호(예: 정체성, 감정, 주저)를 포착할 수 있습니다. 또한 배경 소음에 매우 강건하며, 다양한 상황에서 녹음된 오디오(예: 여러 사람이 말하는 경우)를 처리할 수 있습니다. 최근의 접근 방식들은 전체 얼굴의 애니메이션을 생성하기 위해 오디오와 텍스트를 모두 입력으로 사용하는 엔드투엔드 딥러닝 모델을 활용하고 있습니다. 그러나 공개적으로 이용 가능한 표현력 있는 오디오-3D 얼굴 애니메이션 데이터셋의 부족함이 주요 제약 요인으로 작용하고 있습니다. 그 결과로 생성된 애니메이션은 여전히 정확한 입모양 동기화(lip-synching), 표현력, 개인별 정보 및 일반화 능력 측면에서 문제가 남아 있습니다.우리는 훈련 과정에서 자가 지도 학습 방식으로 사전 훈련된 HuBERT 모델을 효과적으로 활용하여 대규모 사전을 사용하지 않고도 오디오 내의 어휘적 및 비어휘적 정보를 통합할 수 있었습니다. 또한 이진 감정 조건과 화자 정체성을 통해 훈련을 안내함으로써 가장 미세한 얼굴 움직임까지 구분할 수 있게 되었습니다. 우리는 기존 연구와 비교하여 광범위한 객관적 및 주관적 평가를 수행했습니다. 인지 실험 결과, 우리의 접근 방식이 최신 연구보다 78%의 시간 동안 애니메이션의 현실감 측면에서 우수한 결과를 생성한다는 것이 입증되었습니다. 또한 복잡한 순차 모델(예: 트랜스포머) 사용 없이도 우리의 방법은 4배 더 빠르다는 점을 확인하였습니다.논문을 읽기 전에 보충 영상을 시청하는 것을 강력히 추천드립니다. 또한 GitHub 저장소 링크와 함께 구현 및 평가 코드를 제공합니다.

FaceXHuBERT: Self-Supervised Speech Representation Learning을 이용한 텍스트 없는 음성 기반 표현력 있는 3D 얼굴 애니메이션 합성 | 최신 연구 논문 | HyperAI초신경