2달 전

MeshTalk: 음성 사용한 3D 얼굴 애니메이션 생성을 위한 모달 간 분리 기법

Richard, Alexander ; Zollhoefer, Michael ; Wen, Yandong ; de la Torre, Fernando ; Sheikh, Yaser

초록

본 논문은 음성에서 전체 얼굴 3D 애니메이션을 생성하기 위한 일반적인 방법을 제시합니다. 기존의 오디오 주도형 얼굴 애니메이션 접근 방식들은 이상한 느낌이나 정적 상부 얼굴 애니메이션을 나타내거나, 정확하고 합리적인 공진 발음(co-articulation)을 생성하지 못하거나, 개인별 모델에 의존하여 확장성을 제한하는 등의 문제를 가지고 있습니다. 이러한 기존 모델들을 개선하기 위해, 우리는 전체 얼굴에 대해 매우 사실적인 움직임 합성 결과를 달성하는 일반적인 오디오 주도형 얼굴 애니메이션 접근 방식을 제안합니다. 우리 접근 방식의 핵심은 새로운 크로스-모달리티 손실(cross-modality loss) 기반으로 오디오 관련 정보와 오디오 비관련 정보를 분리하는 범주적 잠재 공간(categorical latent space)입니다. 이 접근 방식은 높은 정확도의 입술 움직임을 보장하면서, 오디오 신호와 비관련된 부분인 눈 깜빡임과 눈썹 움직임 등도 합리적으로 합성합니다. 우리는 본 연구가 여러 베이스라인보다 우수하며, 질적 및 양적으로 최고 수준의 품질을 얻는다는 것을 증명하였습니다. 지각 사용자 연구(perceptual user study)에서는 본 연구가 75% 이상의 사례에서 현재 최고 수준의 방법보다 더 사실적이라는 평가를 받았습니다. 논문을 읽기 전에 보충 동영상을 시청하는 것을 추천드립니다: https://github.com/facebookresearch/meshtalk