2달 전
비디오에서 음성 주도 3D 대화 제스처 학습
Habibie, Ikhsanul ; Xu, Weipeng ; Mehta, Dushyant ; Liu, Lingjie ; Seidel, Hans-Peter ; Pons-Moll, Gerard ; Elgharib, Mohamed ; Theobalt, Christian

초록
우리는 음성 입력으로부터 가상 캐릭터의 동기화된 3D 대화형 몸짓과 손동작, 그리고 3D 얼굴과 머리 애니메이션을 자동으로 동시에 합성하는 첫 번째 접근 방식을 제안합니다. 우리의 알고리즘은 얼굴 표현과 손동작 간의 내재적 상관관계를 활용하는 CNN 구조를 사용합니다. 대화형 몸짓의 합성은 여러 유사한 동작이 같은 입력 음성에 적절하게 수반될 수 있으므로 다중 모드(multi-modal) 문제입니다. 이 환경에서 가능한 몸짓을 합성하기 위해, 우리는 생성적 적대 네트워크(Generative Adversarial Network, GAN) 기반 모델을 훈련시켜, 생성된 3D 몸동작 시퀀스가 입력 오디오 특징과 짝을 이루었을 때 그 타당성을 측정합니다. 또한, 자연 환경에서 말하는 사람들의 비디오에서 33시간 이상의 주석된 몸짓, 손동작, 및 얼굴 데이터를 구성하기 위한 새로운 방법을 제공합니다. 이를 위해, 최신 단일 카메라 기술을 사용하여 3D 몸체와 손 포즈 추정 및 밀도 높은 3D 얼굴 성능 캡처를 비디오 코퍼스에 적용하였습니다. 이렇게 하여, 복잡한 스튜디오 내 모션 캡처 솔루션에 의존하는 이전 알고리즘보다 수십 배 많은 데이터로 훈련할 수 있으며, 더 표현력 있는 합성 알고리즘을 훈련시킬 수 있습니다. 우리의 실험과 사용자 연구는 우리가 음성으로 합성한 완전한 3D 캐릭터 애니메이션이 최신 기술(state-of-the-art) 수준의 품질임을 보여줍니다.