
최근 텍스트에서 동작 생성에 대한 확산 모델과 자기회귀 모델을 활용한 기술은 희망적인 성과를 보여주고 있다. 그러나 이러한 모델들은 실시간 성능, 높은 사실성, 동작 편집 가능성 사이에 상충되는 문제를 겪는 경우가 많다. 이 문제를 해결하기 위해 우리는 마스크된 동작 모델(Masked Motion Model) 기반의 새로운 단순한 동작 생성 패러다임 MMM를 제안한다. MMM는 두 가지 핵심 구성 요소로 이루어져 있다: (1) 3D 인간 동작을 잠재 공간 내 이산 토큰 시퀀스로 변환하는 동작 토크나이저, 그리고 (2) 사전에 계산된 텍스트 토큰을 조건으로 하여 무작위로 마스킹된 동작 토큰을 예측하는 조건부 마스크된 동작 트랜스포머이다. MMM는 동작 토큰 간의 내재된 의존성과 동작 토큰과 텍스트 토큰 간의 의미적 맵핑을 모두 방향성에 관계없이 주의(attention)함으로써 명시적으로 포착한다. 추론 과정에서 이는 세부적인 텍스트 설명과 높은 일관성을 유지하는 다수의 동작 토큰을 병렬적이고 반복적으로 디코딩할 수 있게 하여, 높은 사실성과 높은 속도의 동작 생성을 동시에 달성할 수 있다. 또한 MMM는 본질적으로 동작 편집 가능성이 있다. 편집이 필요한 부분에 마스크 토큰을 단순히 삽입함으로써, MMM는 자동으로 결함을 채우면서 편집 영역과 비편집 영역 간의 부드러운 전이를 보장한다. HumanML3D 및 KIT-ML 데이터셋에서 실시한 광범위한 실험 결과, MMM는 현재 최고 수준의 기법들을 능가하여 고품질의 동작 생성(우수한 FID 점수 0.08 및 0.429로 입증)을 가능하게 하며, 신체 부위 수정, 동작 중간 생성, 장시간 동작 시퀀스 합성과 같은 고급 편집 기능을 제공함을 보였다. 더불어, MMM는 편집 가능한 동작 확산 모델 대비 단일 중급 GPU에서 두 자릿수 이상 빠른 속도를 기록했다. 본 연구의 프로젝트 페이지는 \url{https://exitudio.github.io/MMM-page}에서 확인할 수 있다.