16일 전
MoMask: 3차원 인간 운동의 생성형 마스킹 모델링
Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng

초록
우리는 텍스트 기반 3D 인간 운동 생성을 위한 새로운 마스킹 모델링 프레임워크인 MoMask를 제안한다. MoMask에서는 인간 운동을 고해상도 세부 정보를 갖춘 다층 이산 운동 토큰으로 표현하기 위해 계층적 양자화 방식을 도입한다. 기저 층에서 벡터 양자화를 통해 얻어진 운동 토큰 시퀀스를 바탕으로, 이후 계층에 고차원 잔차 토큰들을 차례로 추출하고 저장한다. 이를 바탕으로 두 가지 별개의 양방향 트랜스포머가 구성된다. 기저 층의 운동 토큰에 대해서는, 훈련 단계에서 텍스트 입력을 조건으로 하여 무작위로 마스킹된 운동 토큰을 예측하는 마스킹 트랜스포머를 사용한다. 생성(즉, 추론) 단계에서는 빈 시퀀스에서 시작하여, 마스킹 트랜스포머가 반복적으로 누락된 토큰을 채워나가고, 이후 잔차 트랜스포머는 현재 계층의 결과를 바탕으로 다음 계층의 토큰을 점진적으로 예측하도록 학습한다. 광범위한 실험을 통해 MoMask가 최신 기법들보다 텍스트-운동 생성 작업에서 뛰어난 성능을 보임을 입증하였으며, HumanML3D 데이터셋에서는 FID가 0.045(예: T2M-GPT의 0.141 대비), KIT-ML 데이터셋에서는 0.228(대비 0.514)로 각각 우수한 성과를 달성하였다. 또한 MoMask는 추가적인 모델 미세조정 없이도 관련 작업(예: 텍스트 가이드형 시간 영역 보간)에 원활하게 적용 가능하다.