11일 전

TM2D: 음악-텍스트 통합을 통한 이모달리티 기반 3D 댄스 생성

Kehong Gong, Dongze Lian, Heng Chang, Chuan Guo, Zihang Jiang, Xinxin Zuo, Michael Bi Mi, Xinchao Wang
TM2D: 음악-텍스트 통합을 통한 이모달리티 기반 3D 댄스 생성
초록

우리는 텍스트와 음악이라는 두 가지 모달리티를 동시에 포함하여 3차원 춤 동작을 생성하는 새로운 과제를 제안한다. 기존의 연구들이 음악과 같은 단일 모달리티를 이용하여 춤 동작을 생성하는 데 집중한 반면, 본 연구의 목적은 텍스트가 제공하는 지시 정보를 바탕으로 더욱 풍부한 춤 동작을 생성하는 것이다. 그러나 음악과 텍스트 모달리티를 동시에 포함하는 쌍화된 운동 데이터의 부족으로 인해 두 모달리티를 통합한 춤 동작 생성이 어려운 실정이다. 이러한 문제를 완화하기 위해, 우리는 두 데이터셋의 동작을 양자화된 벡터로 구성된 잠재 공간에 투영하기 위해 3차원 인간 운동 VQ-VAE를 활용하는 방법을 제안한다. 이 방법은 서로 다른 분포를 가진 두 데이터셋의 운동 토큰을 효과적으로 혼합하여 학습에 활용할 수 있다. 더불어, 음악 조건부 춤 생성 성능을 저하시키지 않으면서 텍스트 지시사항을 동작 생성 아키텍처에 통합할 수 있도록 크로스모달 트랜스포머를 제안한다. 생성된 동작의 품질을 보다 정확히 평가하기 위해, 생성된 동작의 일관성과 정지 비율을 측정하는 두 가지 새로운 지표인 운동 예측 거리(Motion Prediction Distance, MPD)와 냉동 점수(Freezing Score, FS)를 도입한다. 광범위한 실험 결과는 제안하는 방법이 텍스트와 음악 양쪽 조건 하에서 사실적이고 일관성 있는 춤 동작을 생성할 수 있음을 보여주며, 동시에 단일 모달리티 기반 기법과 비교해 유사한 성능을 유지함을 확인하였다. 코드는 https://garfield-kh.github.io/TM2D/ 에 공개되어 있다.

TM2D: 음악-텍스트 통합을 통한 이모달리티 기반 3D 댄스 생성 | 최신 연구 논문 | HyperAI초신경