BAMM: 양방향 자동회귀 운동 모델

텍스트에서 인간의 움직임을 생성하는 기술은 기존에 확산 또는 생성 마스킹 프로세스를 활용한 노이즈 제거 움직임 모델에 의해 주도되어 왔다. 그러나 이러한 모델들은 움직임의 길이에 대한 사전 지식이 필요하다는 점에서 사용성 측면에서 큰 한계를 지닌다. 반면, 자기회귀형 움직임 모델은 움직임의 종점들을 적응적으로 예측함으로써 이 문제를 해결하지만, 생성 품질과 편집 가능성 측면에서 성능이 저하되는 단점이 있다. 이러한 문제를 해결하기 위해 본 연구에서는 양방향 자기회귀형 움직임 모델(Bidirectional Autoregressive Motion Model, BAMM)을 제안한다. BAMM은 다음과 같은 두 가지 핵심 구성 요소로 이루어져 있다: (1) 3차원 인간 움직임을 잠재 공간에서 이산 토큰으로 변환하는 움직임 토크나이저, (2) 하이브리드 주의 마스킹 전략을 통해 무작위로 마스킹된 토큰을 자기회귀적으로 예측하는 마스킹된 자기주도 어텐션(transformer). BAMM은 생성 마스킹 모델링과 자기회귀 모델링을 통합함으로써 움직임 토큰 간의 � бог rich하고 양방향적인 의존성을 포착하면서, 움직임 시퀀스 길이를 동적으로 조정하며 텍스트 입력에서 움직임 출력으로의 확률적 매핑을 학습한다. 이 특성 덕분에 BAMM은 높은 품질의 움직임 생성과 동시에 사용성 향상 및 내장된 움직임 편집 기능을 동시에 달성할 수 있다. HumanML3D 및 KIT-ML 데이터셋을 대상으로 수행한 광범위한 실험 결과, BAMM은 정성적 및 정량적 측면에서 기존 최고 수준의 방법들을 모두 초월함을 입증하였다. 본 연구의 프로젝트 페이지는 다음 링크에서 확인할 수 있다: https://exitudio.github.io/BAMM-page