11일 전

UDE: 인간 운동 생성을 위한 통합 주행 엔진

Zixiang Zhou, Baoyuan Wang
UDE: 인간 운동 생성을 위한 통합 주행 엔진
초록

3D 아바타 생성에서 제어 가능하고 편집 가능한 인간 운동 시퀀스를 생성하는 것은 핵심적인 과제이다. 오랫동안 인간 운동을 생성하고 애니메이션화하는 작업은 인적 자원이 많이 소요되는 작업이었으나, 최근 학습 기반 접근법이 개발되고 적용되면서 이러한 상황이 변화하고 있다. 그러나 기존의 이러한 접근법들은 여전히 특정 작업이나 특정 모달리티에 특화되어 있다 \cite{ahuja2019language2pose}\cite{ghosh2021synthesis}\cite{ferreira2021learning}\cite{li2021ai}. 본 논문에서는 자연어 또는 오디오 시퀀스로부터 인간 운동 시퀀스를 생성할 수 있는 최초의 통합 주도 엔진인 ``UDE''를 제안한다 (그림~\ref{fig:teaser} 참조). 구체적으로 UDE는 다음의 핵심 구성 요소로 이루어져 있다: 1) VQVAE 기반의 운동 양자화 모듈로, 연속적인 운동 시퀀스를 이산적인 잠재 코드로 표현한다 \cite{van2017neural}; 2) 모달리티에 관계없이 작동하는 트랜스포머 인코더로, 모달리티에 민감한 주도 신호를 일관된 공간으로 매핑하는 능력을 학습한다 \cite{vaswani2017attention}; 3) 자동 회귀 방식으로 양자화된 잠재 코드 인덱스를 예측하는 통합 토큰 트랜스포머(GPT 유사 \cite{radford2019language}) 네트워크; 4) 운동 토큰을 입력으로 받아 높은 다양성을 갖는 운동 시퀀스로 디코딩하는 확산 기반 운동 디코더. 제안한 방법은 HumanML3D \cite{Guo_2022_CVPR} 및 AIST++ \cite{li2021learn} 벤치마크에서 평가되었으며, 실험 결과 본 방법이 최고 성능을 달성함을 입증하였다. 프로젝트 웹사이트: \url{https://github.com/zixiangzhou916/UDE/}

UDE: 인간 운동 생성을 위한 통합 주행 엔진 | 최신 연구 논문 | HyperAI초신경