FineMoGen: 세밀한 시공간 운동 생성 및 편집

텍스트 기반 동작 생성은 확산 모델의 등장과 함께 상당한 진전을 이루었다. 그러나 기존 방법들은 세밀한 설명에 부합하는 복잡한 동작 시퀀스를 생성하는 데 여전히 어려움을 겪으며, 구체적이고 정확한 공간-시간적 동작을 묘사하는 데 한계가 있다. 이러한 세밀한 제어 능력의 부족은 동작 생성 기술의 활용을 더 넓은 대상에게 확대하는 데 걸림돌이 되고 있다. 이러한 문제를 해결하기 위해, 우리는 사용자 지시에 따라 공간-시간적 구성이 가능한 세밀한 동작을 합성할 수 있는 확산 기반의 동작 생성 및 편집 프레임워크인 FineMoGen을 제안한다. 구체적으로, FineMoGen은 새로운 트랜스포머 아키텍처인 공간-시간 혼합 주의(Spatio-Temporal Mixture Attention, SAMI)를 기반으로 한 확산 모델을 활용한다. SAMI는 전역 주의 템플릿 생성을 두 가지 관점에서 최적화한다. 첫째, 공간-시간적 구성의 제약 조건을 명시적으로 모델링하고, 둘째, 희소하게 활성화되는 전문가 혼합(Mixture-of-Experts) 구조를 활용하여 세밀한 특징을 적응적으로 추출한다. 이 새로운 세밀한 동작 생성 작업에 대한 대규모 연구를 촉진하기 위해, 우리는 2,968개의 영상과 102,336개의 세밀한 공간-시간적 설명을 포함하는 HuMMan-MoGen 데이터셋을 기여한다. 광범위한 실험을 통해 FineMoGen이 최첨단 기법들에 비해 우수한 동작 생성 품질을 보임을 입증하였다. 특히, 현대의 대규모 언어 모델(LLM)을 활용하여 FineMoGen은 제로샷 동작 편집 기능을 제공하며, 세밀한 지시사항에 따라 동작 시퀀스를 정확하게 조작할 수 있다. 프로젝트 페이지: https://mingyuan-zhang.github.io/projects/FineMoGen.html