EMAGE: 통합적이고 종합적인 공언 제스처 생성을 위한 표현력 있는 마스크 오디오 제스처 모델링

우리는 오디오와 마스킹된 제스처로부터 전체 인체 제스처를 생성하는 프레임워크인 EMAGE를 제안합니다. 이 프레임워크는 얼굴, 국부적인 몸통, 손, 그리고 전신 운동을 포함하여 전체적인 제스처를 생성할 수 있습니다. 이를 위해 먼저 BEAT2 (BEAT-SMPLX-FLAME)라는 새로운 메시 레벨의 종합적인 공유발화 데이터셋을 소개합니다. BEAT2는 MoShed SMPL-X 본체와 FLAME 머리 파라미터를 결합하고, 머리, 목, 그리고 손가락 운동 모델링을 더욱 정교하게 개선하여 커뮤니티 표준화되고 고품질의 3D 모션 캡처 데이터셋을 제공합니다.EMAGE는 훈련 중 마스킹된 신체 제스처 사전 정보를 활용하여 추론 성능을 향상시킵니다. 이 프레임워크는 마스킹된 오디오 제스처 변환기(Masked Audio Gesture Transformer)를 사용하여 오디오-제스처 생성과 마스킹된 제스처 재구성을 함께 학습함으로써 오디오와 신체 제스처 힌트를 효과적으로 인코딩합니다. 마스킹된 제스처에서 얻은 인코딩된 신체 힌트는 이후 얼굴과 신체 운동을 각각 생성하는 데 사용됩니다.또한, EMAGE는 오디오의 리듬과 내용에서 추출한 음성 특징들을 적응적으로 결합하고, 네 가지 구성형 VQ-VAE(변분 양자화 오토인코더)를 활용하여 결과의 충실성과 다양성을 향상시킵니다. 실험 결과, EMAGE는 최고 수준의 성능으로 종합적인 제스처를 생성하며, 미리 정의된 시공간적 제스처 입력에 유연하게 대응하여 완전하고 오디오 동기화된 결과물을 생성할 수 있음을 입증하였습니다. 우리의 코드와 데이터셋은 다음 링크에서 이용 가능합니다: https://pantomatrix.github.io/EMAGE/