ParCo: 파트 조정형 텍스트-모션 합성

우리는 텍스트 기반의 움직임 생성(텍스트-모션 합성)이라는 도전적인 과제를 연구한다. 이는 텍스트 설명에 부합하면서도 조화로운 움직임을 생성하는 것을 목표로 한다. 현재까지의 부분 기반(파트 기반) 방법들은 움직임 생성 과정에 부분 분할(part partition)을 도입함으로써 더 세밀한 수준의 생성을 달성하고자 한다. 그러나 이러한 방법들은 서로 다른 부분의 움직임 간 조화가 부족하거나, 네트워크가 부분 개념을 올바르게 이해하기 어려운 문제를 겪고 있다. 더불어, 보다 세밀한 부분 개념을 도입하는 것은 계산 복잡성 측면에서도 큰 부담을 초래한다. 본 논문에서는 부분 움직임의 이해 능력과 다양한 부분 움직임 생성기 간의 소통 능력을 강화한 '파트-조정형 텍스트-모션 합성(Part-Coordinating Text-to-Motion Synthesis, ParCo)'을 제안한다. 이를 통해 조화롭고 세밀한 움직임 생성을 보장한다. 구체적으로, 전신 움직임을 여러 부분 움직임으로 분할하여 각 부분에 대한 사전 개념(prior concept)을 정립한다. 이후, 각 부분 움직임을 생성하기 위한 다수의 경량 생성기(lightweight generators)를 활용하고, 파트 조정 모듈(part coordination module)을 통해 이들 생성기 간의 상호 조율을 수행한다. 제안된 방법은 HumanML3D 및 KIT-ML과 같은 일반적인 벤치마크에서 뛰어난 성능을 보이며, 높은 계산 효율성 또한 유지한다. 이는 본 방법의 효과성에 대한 강력한 증거를 제공한다. 코드는 https://github.com/qrzou/ParCo 에서 공개되어 있다.