Bailando: 연기자-비판자 GPT를 활용한 무용기억을 갖춘 3D 댄스 생성

음악에 따라 3D 캐릭터가 춤을 추도록 유도하는 것은 안무 규범에 의해 자세에 부과되는 공간적 제약으로 인해 매우 도전적인 과제이다. 또한 생성된 춤 동작 시퀀스는 다양한 음악 장르와 시간적으로 일관성을 유지해야 한다. 이러한 과제를 해결하기 위해, 우리는 두 가지 강력한 구성 요소를 갖춘 새로운 음악-춤 프레임워크인 Bailando를 제안한다. 첫째, 3D 자세 시퀀스에서 의미 있는 춤 단위를 추상화하여 양자화된 코드북으로 요약하는 안무 메모리(choreographic memory)이며, 둘째, 이러한 단위들을 음악과 조화를 이루는 유창한 춤으로 구성하는 액터-크리틱 기반 생성형 사전 학습 트랜스포머(Actor-Critic Generative Pre-trained Transformer, GPT)이다. 학습된 안무 메모리를 통해 춤 생성은 높은 안무 기준을 충족하는 양자화된 단위 위에서 이루어지므로, 생성된 춤 시퀀스는 공간적 제약 내에 제한되며 자연스럽게 구현된다. 다양한 운동 속도와 음악 박자 간의 동기화된 정렬을 달성하기 위해, 새로 설계된 박자 정렬 보상 함수(beat-align reward function)를 갖춘 액터-크리틱 기반 강화 학습 기법을 GPT에 도입하였다. 표준 벤치마크를 대상으로 수행된 광범위한 실험 결과, 제안하는 프레임워크가 정성적·정량적으로 모두 최신 기술 수준을 달성함을 입증하였다. 특히, 학습된 안무 메모리가 비지도 학습 방식으로 인간이 해석 가능한 춤 스타일 자세를 탐색함을 보여주었다.