16일 전

GUESS: 텍스트 기반 인간 운동 생성을 위한 점진적 풍부화 합성

Xuehao Gao, Yang Yang, Zhenyu Xie, Shaoyi Du, Zhongqian Sun, Yang Wu
GUESS: 텍스트 기반 인간 운동 생성을 위한 점진적 풍부화 합성
초록

이 논문에서는 텍스트 기반 인간 운동 합성에 대한 새로운 계단식(diffusion-based) 생성 프레임워크를 제안하며, 이를 위해 'Gradually Enriching Synthesis(GUESS)'라는 전략을 도입한다. 이 전략은 세밀한 골격의 신체 관절들을 의미적으로 근접한 그룹으로 묶어 생성 목표를 설정하고, 각 관절 그룹을 단일한 신체 부위 노드로 대체함으로써 인간 자세를 다단계의 다양한 추상화 수준에서 점차 더 추상화된 골격 구조로 표현한다. 추상화 수준을 점차 높여감에 따라 인간 운동은 더욱 간결하고 안정적이 되며, 이는 다중 모달 운동 합성 작업에 크게 기여한다. 전체 텍스트 기반 인간 운동 합성 문제는 이러한 다단계 추상화 수준으로 분해되며, 계단식 잠재 확산 모델을 기반으로 한 다단계 생성 프레임워크를 통해 해결된다. 초기 생성기는 주어진 텍스트 설명에서 가장 추상적인 수준의 인간 운동 예측을 생성하고, 이후 연속적인 생성기들은 텍스트 설명과 이전에 합성된 결과를 바탕으로 점차 더 세밀한 운동 정보를 보완한다. 특히, 제안된 동적 다중 조건 융합 메커니즘과 GUESS를 통합하여 각 생성 단계에서 주어진 텍스트 조건과 합성된 추상화된 운동 프롬프트 간의 협업 효과를 동적으로 균형 있게 조절한다. 대규모 데이터셋을 기반으로 한 광범위한 실험 결과는 GUESS가 기존 최첨단 방법들에 비해 정확도, 현실감, 다양성 측면에서 큰 성능 우위를 보임을 입증한다. 코드는 https://github.com/Xuehao-Gao/GUESS 에서 공개되어 있다.

GUESS: 텍스트 기반 인간 운동 생성을 위한 점진적 풍부화 합성 | 최신 연구 논문 | HyperAI초신경