11일 전
MCM: 다중 조건 운동 합성 프레임워크
Zeyu Ling, Bo Han, Yongkang Wongkan, Han Lin, Mohan Kankanhalli, Weidong Geng

초록
조건부 인간 운동 합성(Conditional Human Motion Synthesis, HMS)은 특정 조건에 부합하는 인간 운동 시퀀스를 생성하는 것을 목표로 한다. 텍스트와 오디오는 현재 HMS 제어 조건으로 주로 활용되는 두 가지 주요 모달리티이다. 기존 연구는 주로 단일 조건에 집중되어 있는 반면, 다중 조건 하의 인간 운동 합성은 여전히 탐색이 부족한 분야이다. 본 연구에서는 이에 대응하여, 주(branch)와 제어(branch)로 구성된 이중 분기 구조를 기반으로 한 다중 조건 HMS 프레임워크인 MCM을 제안한다. 이 프레임워크는 원래 텍스트 조건에만 기반하여 설계된 확산 모델(diffusion model)의 적용 범위를 청각 조건으로 효과적으로 확장한다. 이 확장은 음악-무용 합성 및 공언어 조건 하의 운동 합성(co-speech HMS)을 포함하며, 원래 모델이 내재적으로 지닌 운동의 질적 특성과 의미적 연관성 기능을 유지한다. 또한 주 분기로 사용하기 위해 트랜스포머 기반의 확산 모델인 MWNet을 제안한다. 이 모델은 다중 방향 자기 주의(multi-wise self-attention) 모듈을 통합함으로써 운동 시퀀스 내에 내재된 공간적 복잡성과 관절 간 상호관계를 효과적으로 인지할 수 있다. 광범위한 실험 결과는 제안한 방법이 단일 조건 및 다중 조건 HMS 과제에서 경쟁력 있는 성능을 달성함을 보여준다.