16일 전
텍스트에서 다양한 자연스러운 3D 인간 운동 생성
{Li Cheng, Xingyu Li, Wei Ji, Sen Wang, Xinxin Zuo, Shihao Zou, Chuan Guo}

초록
텍스트에서 3차원 인간 동작을 자동으로 생성하는 것은 도전적인 문제이다. 생성된 동작은 텍스트에 기반한 동작 공간을 충분히 탐색할 수 있도록 다양성이 있어야 하며, 무엇보다도 주어진 텍스트 설명의 내용을 정확히 반영해야 한다. 본 연구에서는 두 단계의 접근 방식을 통해 이 문제를 해결한다. 첫 번째 단계는 텍스트 → 길이 샘플링, 두 번째 단계는 텍스트 → 동작 생성이다. 텍스트 → 길이 샘플링은 입력 텍스트에 조건부로 학습된 동작 길이 분포 함수로부터 샘플링을 수행하는 과정이다. 이 후, 시간적 변분 오토인코더(temporal variational autoencoder)를 활용한 텍스트 → 동작 모듈을 통해 샘플된 길이에 맞는 다양한 인간 동작을 합성한다. 포즈 시퀀스를 직접 다루는 대신, 본 연구는 내부 동작 표현으로 '움직임 조각 코드(motion snippet code)'를 제안한다. 이는 국부적인 의미론적 동작 맥락을 효과적으로 포착하며, 실제 실험을 통해 입력 텍스트에 충실하고 자연스러운 동작 생성을 촉진함을 입증하였다. 또한, 스크립트 기반 3차원 인간 동작을 포함하는 대규모 데이터셋인 HumanML3D를 구축하였으며, 이는 총 14,616개의 동작 클립과 44,970개의 텍스트 설명을 포함한다. 광범위한 실험 결과는 본 방법의 효과성을 입증한다. 프로젝트 웹페이지: https://ericguo5513.github.io/text-to-motion/