
초록
텍스트 기반으로 다양한 3D 인간 운동을 생성하는 문제를 다룹니다. 이 도전적인 과제는 두 모달리티를 함께 모델링해야 하는데, 텍스트에서 인간 중심의 유용한 정보를 이해하고 추출한 후, 타당하고 현실적인 인간 자세 시퀀스를 생성해야 합니다. 기존 대부분의 연구가 텍스트 기술에 따라 단일한 결정론적 운동을 생성하는 데 집중한 반면, 우리는 여러 다양성을 가진 인간 운동을 생성할 수 있는 변분 접근법을 설계했습니다. 우리는 인간 운동 데이터를 활용한 변분 오토인코더(VAE) 학습과 텍스트 인코더를 결합한 텍스트 조건부 생성 모델인 TEMOS를 제안합니다. 이 텍스트 인코더는 VAE의 잠재 공간과 호환되는 분포 파라미터를 생성합니다. TEMOS 프레임워크가 기존 연구와 마찬가지로 스켈레톤 기반 애니메이션을 생성할 뿐만 아니라, 더 표현력이 풍부한 SMPL 신체 운동도 생성할 수 있음을 보여줍니다. 우리는 KIT Motion-Language 벤치마크에서 본 방법을 평가하였으며, 비교적 간단한 구조임에도 불구하고 기존 최고 수준의 성능을 크게 초월함을 입증했습니다. 코드와 모델은 저희 웹사이트에서 제공됩니다.