11일 전
Fg-T2M: 확산 모델을 통한 세밀한 텍스트 주도 인간 운동 생성
Yin Wang, Zhiying Leng, Frederick W. B. Li, Shun-Cheng Wu, Xiaohui Liang

초록
컴퓨터 비전 분야에서 텍스트 기반의 인간 운동 생성은 매우 중요하면서도 도전적인 과제이다. 그러나 기존의 방법들은 결정론적 또는 부정확한 운동 시퀀스만 생성할 수 있어, 주어진 텍스트 설명에 부합하기 위해 필요한 시간적 및 공간적 관계를 효과적으로 제어하지 못하고 있다. 본 연구에서는 정밀한 텍스트 설명을 지원하는 고품질의 조건부 인간 운동 시퀀스를 생성하기 위한 세밀한 방법을 제안한다. 제안하는 방법은 두 가지 핵심 구성 요소로 이루어져 있다. 첫째, 정확하고 완전한 언어 특징을 구축하여 텍스트 정보를 최대한 활용할 수 있도록 돕는 언어 구조 지원 모듈이며, 둘째, 얕은 및 깊은 그래프 신경망을 통해 주변 및 전반적인 의미적 언어 특징을 학습하여 다단계 추론을 실현하는 맥락 인식형 점진적 추론 모듈이다. 실험 결과, 본 방법은 HumanML3D 및 KIT 테스트 세트에서 기존의 텍스트 기반 운동 생성 방법들을 모두 능가하며, 텍스트 조건에 더 잘 부합하는 시각적으로 확인 가능한 운동을 생성함을 입증하였다.