AttT2M: 다중 시점 주의 메커니즘을 활용한 텍스트 기반 인간 운동 생성

최근 몇 년간 텍스트 기반 3차원 인간 운동 생성은 주목받는 연구 주제로 부상하고 있다. 이 작업은 생성된 운동이 다양하고 자연스럽게, 동시에 텍스트 설명과 일치해야 하는 요구를 수반한다. 인간 운동의 복잡한 시공간적 특성과 텍스트와 운동 간의 다모달 관계를 학습하는 어려움으로 인해, 텍스트 기반 운동 생성은 여전히 도전적인 문제로 남아 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 다각적 주목 메커니즘을 갖춘 이단계적 방법인 AttT2M(Attention-based Text-to-Motion)을 제안한다. 이는 신체 부위 주목(body-part attention)과 전역-국소 운동-텍스트 주목(global-local motion-text attention)을 포함한다. 첫 번째는 운동 임베딩 관점에서, VQ-VAE에 신체 부위별 시공간 인코더를 도입하여 더 표현력 있는 이산 잠재 공간을 학습하는 것을 목표로 한다. 두 번째는 다모달 관점에서 문장 수준 및 단어 수준의 운동-텍스트 간 다모달 관계를 학습하는 데 활용된다. 최종적으로 생성형 트랜스포머를 사용하여 텍스트 기반 운동을 생성한다. HumanML3D 및 KIT-ML 데이터셋을 기반으로 수행된 광범위한 실험 결과, 제안한 방법은 정성적 및 정량적 평가 모두에서 현재 최고 성능을 기록하고 있으며, 세부적인 합성 및 액션-투-모션( action2motion) 성능을 달성하였다. 코드는 https://github.com/ZcyMonkey/AttT2M 에 공개되어 있다.