11일 전

모션 애니무이션: Any to Motion 생성

Zeyu Zhang, Yiran Wang, Wei Mao, Danning Li, Rui Zhao, Biao Wu, Zirui Song, Bohan Zhuang, Ian Reid, Richard Hartley
모션 애니무이션: Any to Motion 생성
초록

조건부 동작 생성은 컴퓨터 비전 분야에서 광범위하게 연구되어 왔지만, 여전히 두 가지 핵심적인 도전 과제가 남아 있다. 첫째, 최근 마스킹 자기회귀(masked autoregressive) 방법이 확산 기반 접근법을 능가하고 있으나, 기존의 마스킹 모델은 주어진 조건에 따라 동적 프레임과 신체 부위를 우선순위적으로 처리할 수 있는 메커니즘이 부족하다. 둘째, 다양한 조건 입력 모달리티(예: 텍스트, 음악 등)를 다루는 기존 방법들은 종종 다중 모달리티를 효과적으로 통합하지 못하여 생성된 동작의 제어 가능성과 일관성에 한계가 있다. 이러한 문제를 해결하기 위해 우리는 다중 모달 동작 생성 프레임워크인 Motion Anything을 제안한다. 이 프레임워크는 주목도 기반 마스킹 모델링(Attention-based Mask Modeling)을 도입하여 핵심 프레임과 동작에 대해 세밀한 공간적·시간적 제어를 가능하게 한다. 본 모델은 텍스트 및 음악과 같은 다중 모달 조건을 적응적으로 인코딩함으로써 제어 가능성을 향상시킨다. 또한, 텍스트-음악-무용(Text-Music-Dance, TMD)이라는 새로운 동작 데이터셋을 소개한다. 이 데이터셋은 총 2,153개의 텍스트-음악-무용 쌍을 포함하며, 기존 AIST++ 데이터셋보다 두 배 이상의 규모를 지닌다. 이는 커뮤니티 내에서 중요한 데이터 공백을 메우는 데 기여한다. 광범위한 실험을 통해 Motion Anything이 여러 벤치마크에서 최신 기술을 능가함을 입증하였으며, HumanML3D에서 FID 지표가 15% 향상되었으며, AIST++ 및 TMD에서 일관된 성능 향상도 나타냈다. 자세한 내용은 프로젝트 웹사이트를 참조하시기 바랍니다: https://steve-zeyu-zhang.github.io/MotionAnything

모션 애니무이션: Any to Motion 생성 | 최신 연구 논문 | HyperAI초신경