11일 전

DiverseMotion: 이산 확산을 통한 다양한 인간 운동 생성으로의 도전

Yunhong Lou, Linchao Zhu, Yaxiong Wang, Xiaohan Wang, Yi Yang
DiverseMotion: 이산 확산을 통한 다양한 인간 운동 생성으로의 도전
초록

우리는 텍스트 기반 설명에 따라 고품질의 인간 운동을 합성하면서도 운동의 다양성을 유지하는 새로운 접근법인 DiverseMotion을 제안한다. 최근 텍스트 기반 인간 운동 생성 분야에서 큰 진전이 있었음에도 불구하고, 기존 방법들은 주로 학습 데이터에 있는 운동에 잘 맞추는 데 집중하면서 행동 다양성의 저하를 초래한다. 이로 인해 운동 품질과 다양성 사이의 균형을 맞추는 것은 여전히 해결되지 않은 과제로 남아 있다. 이 문제는 두 가지 주요 요인에 의해 악화된다. 첫째, 기존 벤치마크에서 운동-캡션 쌍의 다양성이 부족하며, 둘째, 텍스트 프롬프트에 대한 단방향적이고 편향된 의미 이해로, 동사 요소에만 집중하면서 다른 단어들이 나타내는 미묘한 차이를 간과한다. 이러한 첫 번째 문제에 대응하기 위해, 기존 잘 레이블링된 데이터셋의 제한된 동작 범위를 확장하기 위해 대규모의 Wild Motion-Caption 데이터셋(WMC)을 구축하였다. 이를 통해 더 광범위한 동작 범위를 통해 다양한 운동을 학습할 수 있도록 하였다. 이를 위해 사전 학습된 시각-언어 모델 기반으로 운동 BLIP을 학습한 후, 수집된 운동 시퀀스에 대해 자동으로 다양한 운동 캡션을 생성하였다. 그 결과, 총 8,888개의 운동과 141,000개의 텍스트로 구성된 데이터셋을 최종적으로 구축하였다. 텍스트 명령어를 종합적으로 이해하기 위해, 세밀한 의미를 포착할 수 있는 계층적 의미 집약(Hierarchical Semantic Aggregation, HSA) 모듈을 제안하였다. 마지막으로, 위 두 가지 설계를 효과적인 운동 이산 확산(Motion Discrete Diffusion, MDD) 프레임워크에 통합하여 운동 품질과 다양성 사이의 균형을 달성하였다. HumanML3D 및 KIT-ML에서 실시한 광범위한 실험 결과, DiverseMotion은 최고 수준의 운동 품질과 경쟁 가능한 운동 다양성을 달성하였다. 데이터셋, 코드, 사전 학습 모델은 모든 결과를 재현할 수 있도록 공개될 예정이다.

DiverseMotion: 이산 확산을 통한 다양한 인간 운동 생성으로의 도전 | 최신 연구 논문 | HyperAI초신경