11일 전
MotionDiffuse: 확산 모델을 활용한 텍스트 주도 인간 운동 생성
Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, Ziwei Liu

초록
인간 운동 모델링은 여러 현대 그래픽스 응용 분야에서 중요한 역할을 하며, 일반적으로 전문적인 기술이 필요합니다. 비전문가가 접근할 수 있도록 기술 장벽을 제거하기 위해 최근의 운동 생성 기법들은 자연어를 조건으로 하여 인간 운동을 직접 생성할 수 있습니다. 그러나 다양한 텍스트 입력에 대해 다양하고 세밀한 운동 생성을 달성하는 것은 여전히 도전 과제입니다. 이 문제를 해결하기 위해 우리는 텍스트 기반 운동 생성을 위한 최초의 확산 모델 기반 프레임워크인 MotionDiffuse를 제안합니다. 기존 방법에 비해 여러 바람직한 특성을 보여줍니다. 1) 확률적 매핑: 결정론적 언어-운동 매핑이 아닌, 노이즈 제거 단계를 거치며 변동성을 주입함으로써 운동을 생성합니다. 2) 현실적인 합성: 복잡한 데이터 분포를 효과적으로 모델링하고 생생한 운동 시퀀스를 생성하는 데 뛰어납니다. 3) 다수준 조작: 신체 부위에 대한 세밀한 지시에 반응하며, 시간에 따라 변화하는 텍스트 프롬프트를 활용한 임의 길이의 운동 합성도 가능합니다. 실험 결과, MotionDiffuse는 텍스트 기반 운동 생성 및 행동 조건부 운동 생성에서 기존 최고 수준(SoTA) 기법들을 확실히 능가함을 보였습니다. 질적 분석을 통해 MotionDiffuse가 종합적인 운동 생성에 있어 뛰어난 조작 가능성을 갖추고 있음을 추가로 입증하였습니다. 홈페이지: https://mingyuan-zhang.github.io/projects/MotionDiffuse.html