
대부분의 텍스트 기반 인간 운동 생성 방법들은 트랜스포머와 같은 순차 모델링 접근법을 활용하여 문장 수준의 텍스트 표현을 자동으로 및 암묵적으로 추출함으로써 인간 운동 합성에 활용한다. 그러나 이러한 압축된 텍스트 표현은 다른 중요한 특성들을 무시하고, 미묘하게 다른 운동을 생성하는 데 필요한 세부 정보를 부족하게 제공할 수 있다. 본 논문에서는 세부적인 운동 제어를 가능하게 하는 계층적 의미 그래프를 제안한다. 구체적으로, 운동 설명을 운동 전체, 동작, 세부 사항의 세 가지 계층으로 분리하여 계층적 의미 그래프를 구성한다. 이러한 전역에서 국지로의 구조는 운동 설명에 대한 포괄적인 이해와 운동 생성의 세부 제어를 가능하게 한다. 이를 바탕으로, 계층적 의미 그래프의 거시적에서 미시적 구조를 효과적으로 활용하기 위해, 텍스트에서 운동으로의 확산 과정을 세 가지 의미 수준으로 분해한다. 각 수준은 각각 전반적인 운동의 특성 추출, 국지적 동작의 표현, 동작의 세부 사항 반영을 담당한다. HumanML3D와 KIT 등 두 가지 벤치마크 인간 운동 데이터셋에서 실시한 광범위한 실험 결과는 본 방법의 효과성을 입증하며, 우수한 성능을 보였다. 더욱 흥미로운 점은 계층적 의미 그래프의 간선 가중치를 조정함으로써 생성된 운동을 지속적으로 개선할 수 있다는 점이다. 이는 연구 공동체에 장기적이고 심대한 영향을 미칠 수 있다. 코드 및 사전 학습 가중치는 https://github.com/jpthu17/GraphMotion 에서 제공된다.