11일 전

잠재 공간 내에서 모션 디퓨전을 통한 명령 실행

Xin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, Jingyi Yu, Gang Yu
잠재 공간 내에서 모션 디퓨전을 통한 명령 실행
초록

우리는 행동 클래스나 텍스트 설명과 같은 다양한 조건 입력에 따라 자연스러운 인간 운동 시퀀스를 생성하는 조건부 인간 운동 생성이라는 도전적인 과제를 연구한다. 인간 운동은 매우 다양하며, 자연어 텍스트 설명과 같은 조건 입력 모달리티와 비교했을 때 분포가 크게 다름으로 인해, 원하는 조건 입력 모달리티에서 인간 운동 시퀀스로의 확률적 매핑을 학습하는 것은 매우 어렵다. 또한, 운동 캡처 시스템에서 얻은 원시 운동 데이터는 시퀀스 내에서 중복이 많고 노이즈를 포함할 수 있다. 이러한 원시 운동 시퀀스와 조건 입력 간의 공동 분포를 직접 모델링할 경우, 높은 계산 부하가 발생할 뿐만 아니라 캡처된 노이즈로 인해 아티팩트가 발생할 위험이 있다. 이를 해결하기 위해, 다양한 인간 운동 시퀀스에 대한 더 나은 표현을 학습하기 위해 먼저 강력한 변분 오토인코더(Variational AutoEncoder, VAE)를 설계하여 인간 운동 시퀀스에 대한 대표적이고 저차원의 잠재 코드를 도출한다. 이후 원시 운동 시퀀스와 조건 입력 간의 관계를 확산 모델을 통해 설정하는 대신, 운동 잠재 공간에서 확산 과정을 수행한다. 제안하는 운동 잠재 기반 확산 모델(Motion Latent-based Diffusion model, MLD)은 주어진 조건 입력에 부합하는 생생한 운동 시퀀스를 생성할 수 있으며, 훈련 및 추론 단계에서 계산 부하를 크게 줄일 수 있다. 다양한 인간 운동 생성 작업에 대한 광범위한 실험 결과는 MLD가 최신 기술 대비 상당한 성능 향상을 달성하였으며, 기존 원시 운동 시퀀스 기반 확산 모델보다 두 자리 수 만큼 빠른 속도로 동작함을 보여준다.

잠재 공간 내에서 모션 디퓨전을 통한 명령 실행 | 최신 연구 논문 | HyperAI초신경