
초록
우리는 다양한 속도, 방향 및 동작 구성이 포함된 복잡한 자연어 문장에서 3차원 인간 운동을 생성하는 간단하고 새로운 방법을 제안한다. 기존의 전통적인 생성 아키텍처를 사용하는 방법들과는 달리, 본 연구에서는 복잡한 자연어 지시에 따라 다양한 운동 결과를 합성하는 데 디노이징 확산 확률 모델(Denoising Diffusion Probabilistic Model)을 적용한다. 확산 모델은 마르코프 과정을 통해 일련의 디노이징 단계를 거쳐 흰 잡음을 구조화된 3차원 운동으로 변환하며, 변분 하한(variational lower bound) 최적화를 통해 효율적으로 학습된다. 텍스트 조건부 이미지 생성 목표를 달성하기 위해, 학습 과정에서 텍스트 임베딩을 모델에 융합하기 위해 분류기 자유(guidance) 전략을 사용한다. 실험 결과, 제안하는 모델은 HumanML3D 테스트 세트에서 정량적으로 경쟁력 있는 성능을 보이며, 더 자연스럽고 다양한 시각적 예시를 생성할 수 있음을 입증하였다. 또한, 추가 실험을 통해 본 모델이 미리 보지 못한 텍스트 지시어에 대해 제로샷(Zero-shot)으로 운동을 생성할 수 있음을 보여주었다.