11일 전
T2M-GPT: 이산 표현을 활용한 텍스트 기반 인간 운동 생성
Jianrong Zhang, Yangsong Zhang, Xiaodong Cun, Shaoli Huang, Yong Zhang, Hongwei Zhao, Hongtao Lu, Xi Shen

초록
본 연구에서는 텍스트 기반 설명으로부터 인간의 움직임을 생성하기 위해 벡터 양자화-변분 오토인코더(VQ-VAE)와 생성형 사전 훈련된 트랜스포머(GPT)를 기반으로 한 간단하면서도 필수적인 조건부 생성 프레임워크를 탐구한다. 우리는 일반적으로 사용되는 훈련 기법(EMA 및 코드 리셋)을 적용한 단순한 CNN 기반 VQ-VAE가 고품질의 이산 표현을 얻는 데 충분함을 보여준다. GPT에 대해서는 훈련 중 간단한 손상(corruption) 전략을 도입함으로써 훈련-테스트 간의 불일치 문제를 완화한다. 이러한 간단한 구조에도 불구하고, 제안하는 T2M-GPT는 최근의 확산 기반 접근법을 포함한 경쟁적 기법들보다 우수한 성능을 보인다. 예를 들어, 현재 가장 큰 데이터셋인 HumanML3D에서 텍스트와 생성된 움직임 간의 일관성(R-Precision)은 유사한 수준을 달성하지만, FID 지표는 0.116으로 MotionDiffuse의 0.630을 크게 상회한다. 또한 HumanML3D에 대한 분석을 통해 데이터셋 크기가 본 방법의 한계임을 관찰하였다. 본 연구는 VQ-VAE가 여전히 인간 움직임 생성 분야에서 경쟁력 있는 접근법임을 시사한다.