
우리는 새로운 프레임워크인 On-Demand Motion Generation (ODMO)를 제안합니다. 이 프레임워크는 행동 유형만을 조건으로 하여 실제적이고 다양하며 장기적인 3D 인간 운동 시퀀스를 생성할 수 있으며, 추가적으로 사용자 정의 기능을 제공합니다. ODMO는 HumanAct12, UESTC, MoCap 세 개의 공개 데이터셋에서 평가되었으며, 모든 전통적인 운동 평가 지표에서 최신 기술(SOTA) 접근법보다 향상된 성능을 보였습니다. 또한, 우리의 프레임워크가 제공하는 여러 가지 처음 알려진 사용자 정의 기능들을 질적 평가와 양적 지표로 입증하였습니다. 이러한 기능들은 운동 생성 모델의 잠재적인 응용 범위를 크게 확장시킵니다.이러한 새로운 주문형 생성 기능은 인코더와 디코더 아키텍처 모두에서 혁신을 통해 가능해졌습니다: (i) 인코더: 저차원 잠재 공간에서 대조 학습(contrastive learning)을 활용하여 운동 시퀀스의 계층적 임베딩을 생성합니다. 여기서 다른 행동 유형의 코드들이 서로 다른 그룹을 형성하는 것뿐만 아니라, 동일한 행동 유형 내에서도 비슷한 본질적 패턴(운동 스타일)을 가진 코드들이 함께 클러스터링되어 쉽게 발견될 수 있도록 합니다; (ii) 디코더: 운동 궤도를 먼저 재구성하고 이를 이용하여 전체 운동 시퀀스를 재구성하는 계층적 디코딩 전략을 사용합니다. 이러한 아키텍처는 효과적인 궤도 제어를 가능하게 합니다.우리의 코드는 Github 페이지에 공개되었습니다: https://github.com/roychowdhuryresearch/ODMO