17일 전
HumanTOMATO: 텍스트 정렬 전체 신체 운동 생성
Shunlin Lu, Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang, Heung-Yeung Shum

초록
본 연구는 주어진 텍스트 설명을 입력으로 받아 얼굴 표정, 손 제스처 및 신체 운동을 동시에 고품질, 다양한, 일관성 있는 전신 운동으로 생성하는 새로운 텍스트 기반 전신 운동 생성 작업을 대상으로 한다. 기존의 텍스트 기반 운동 생성 연구들은 두 가지 주요한 한계를 가지고 있다. 첫째, 생생한 전신 운동 생성 과정에서 세밀한 손과 얼굴 제어의 핵심적 역할을 간과하고 있으며, 둘째, 텍스트와 운동 간의 정확한 일치도 부족하다는 점이다. 이러한 한계를 해결하기 위해, 본 연구에서는 텍스트와 운동 간의 정밀한 일치를 보장하면서도 실용적인 전면적 운동 생성을 가능하게 하는 새로운 프레임워크인 HumanTOMATO를 제안한다. 이는 본 연구 분야에서 이러한 목표에 대한 최초의 시도로, 지식 기반으로 볼 때 의미 있는 기여이다. 본 도전적인 작업을 해결하기 위해, 본 연구는 두 가지 핵심 설계를 포함한다: (1) 구조화된 두 개의 코드북을 활용하여 세밀한 신체 및 손 운동 재구성과 생성을 수행하는 히에라키컬 하이브리드 VQ-VAE(H$^2$VQ)와 히에라키컬-GPT; (2) 사전 훈련된 텍스트-운동 일치 모델을 도입하여 생성된 운동이 입력 텍스트 설명과 명시적으로 일치하도록 지원한다. 포괄적인 실험을 통해 제안한 모델이 생성된 운동의 품질과 텍스트와의 일치도 측면에서 두드러진 우수성을 입증하였다.