16일 전

AI 코 choreographer: AIST++를 활용한 음악 조건부 3D 댄스 생성

Ruilong Li, Shan Yang, David A. Ross, Angjoo Kanazawa
AI 코 choreographer: AIST++를 활용한 음악 조건부 3D 댄스 생성
초록

우리는 음악에 조건부된 3D 댄스 모션을 생성하기 위한 새로운 다중 모달 데이터셋 AIST++와 FACT(Full-Attention Cross-modal Transformer)를 제안한다. FACT는 음악을 입력으로 받아 3D 댄스 모션을 생성하는 전면적 주의(attention) 구조를 갖춘 다중 모달 변환기 네트워크이다. 제안된 AIST++ 데이터셋은 1408개의 시퀀스로 구성되어 있으며, 총 5.2시간 분량의 3D 댄스 모션을 포함하고 있으며, 10개의 댄스 장르를 다루고 있으며, 카메라 포즈가 사전에 알려진 다중 시점 영상도 제공한다. 이는 현재까지 알려진 유사한 종류의 데이터셋 중 가장 규모가 큰 것으로 확인된다. 본 연구에서는 음악 조건부 3D 모션 생성 작업에 기존의 시퀀스 모델(예: 트랜스포머)을 단순히 적용할 경우, 입력 음악과 잘 연관된 만족스러운 3D 모션을 생성하지 못함을 보여준다. 이를 극복하기 위해 아키텍처 설계 및 학습 감독 방식에 핵심적인 개선을 도입한다. FACT 모델은 향후 $N$개의 모션을 예측하도록 학습되는 깊은 다중 모달 트랜스포머 블록을 포함하며, 전체 주의 메커니즘을 적용한다. 실증적으로 이러한 설계 변화가 입력 음악에 잘 부합하는 장시간의 사실적인 댄스 모션을 생성하는 데 핵심적인 요소임을 입증한다. AIST++ 데이터셋을 기반으로 실시한 광범위한 실험과 사용자 연구를 통해, 제안한 방법이 최근의 최첨단 기법들을 모두 정량적·정성적으로 상회함을 확인하였다.

AI 코 choreographer: AIST++를 활용한 음악 조건부 3D 댄스 생성 | 최신 연구 논문 | HyperAI초신경