2달 전

음성에서 전체적인 3D 인간 운동 생성

Yi, Hongwei ; Liang, Hualin ; Liu, Yifei ; Cao, Qiong ; Wen, Yandong ; Bolkart, Timo ; Tao, Dacheng ; Black, Michael J.

초록

이 연구는 인간의 말소리로부터 3D 전체적인 몸 동작을 생성하는 문제를 다룹니다. 주어진 음성 녹음에서 현실적이고 다양한 3D 몸 자세, 손동작, 그리고 얼굴 표현의 시퀀스를 합성합니다. 이를 위해 먼저 동기화된 음성을 갖춘 고품질의 3D 전체 몸 메시 데이터셋을 구축합니다. 그런 다음 얼굴, 몸, 그리고 손을 별도로 모델링하는 새로운 음성-동작 생성 프레임워크를 정의합니다. 별도의 모델링은 얼굴 발음이 인간의 말소리와 강하게 상관관계가 있지만, 몸 자세와 손동작은 덜 관련되어 있다는 사실에서 비롯됩니다. 구체적으로, 우리는 얼굴 동작에 대해 오토인코더를 사용하고, 몸과 손 동작에 대해서는 구성형 벡터 양자화 변분 오토인코더 (VQ-VAE)를 사용합니다. 구성형 VQ-VAE는 다양한 결과를 생성하는 데 중요한 역할을 합니다. 또한, 일관되고 현실적인 동작을 생성하기 위해 교차 조건부 자기회귀 모델을 제안합니다. 광범위한 실험과 사용자 연구를 통해 제안된 접근 방식이 정성적 및 정량적으로 최고 수준의 성능을 달성함을 입증하였습니다. 우리의 새로운 데이터셋과 코드는 연구 목적으로 https://talkshow.is.tue.mpg.de 에서 공개될 예정입니다.