DiverseMotion: 이산 확산을 통한 다양한 인간 운동 생성으로의 도전

우리는 텍스트 기반 설명에 따라 고품질의 인간 운동을 합성하면서도 운동의 다양성을 유지하는 새로운 접근법인 DiverseMotion을 제안한다. 최근 텍스트 기반 인간 운동 생성 분야에서 큰 진전이 있었음에도 불구하고, 기존 방법들은 주로 학습 데이터에 있는 운동에 잘 맞추는 데 집중하면서 행동 다양성의 저하를 초래한다. 이로 인해 운동 품질과 다양성 사이의 균형을 맞추는 것은 여전히 해결되지 않은 과제로 남아 있다. 이 문제는 두 가지 주요 요인에 의해 악화된다. 첫째, 기존 벤치마크에서 운동-캡션 쌍의 다양성이 부족하며, 둘째, 텍스트 프롬프트에 대한 단방향적이고 편향된 의미 이해로, 동사 요소에만 집중하면서 다른 단어들이 나타내는 미묘한 차이를 간과한다. 이러한 첫 번째 문제에 대응하기 위해, 기존 잘 레이블링된 데이터셋의 제한된 동작 범위를 확장하기 위해 대규모의 Wild Motion-Caption 데이터셋(WMC)을 구축하였다. 이를 통해 더 광범위한 동작 범위를 통해 다양한 운동을 학습할 수 있도록 하였다. 이를 위해 사전 학습된 시각-언어 모델 기반으로 운동 BLIP을 학습한 후, 수집된 운동 시퀀스에 대해 자동으로 다양한 운동 캡션을 생성하였다. 그 결과, 총 8,888개의 운동과 141,000개의 텍스트로 구성된 데이터셋을 최종적으로 구축하였다. 텍스트 명령어를 종합적으로 이해하기 위해, 세밀한 의미를 포착할 수 있는 계층적 의미 집약(Hierarchical Semantic Aggregation, HSA) 모듈을 제안하였다. 마지막으로, 위 두 가지 설계를 효과적인 운동 이산 확산(Motion Discrete Diffusion, MDD) 프레임워크에 통합하여 운동 품질과 다양성 사이의 균형을 달성하였다. HumanML3D 및 KIT-ML에서 실시한 광범위한 실험 결과, DiverseMotion은 최고 수준의 운동 품질과 경쟁 가능한 운동 다양성을 달성하였다. 데이터셋, 코드, 사전 학습 모델은 모든 결과를 재현할 수 있도록 공개될 예정이다.