MOSPA: 공간 오디오에 의해 구동되는 인간 운동 생성

가상 인간이 다양한 청각 자극에 동적으로 그리고 사실적으로 반응하도록 하는 것은 캐릭터 애니메이션에서 주요한 과제로, 지각 모델링과 운동 합성의 통합을 요구합니다. 이 과제의 중요성에도 불구하고, 여전히 대부분 탐구되지 않은 상태입니다. 대부분의 이전 연구들은 말, 소리, 음악 등의 모드를 매핑하여 인간의 운동을 생성하는 데 중점을 두었습니다. 그러나 이러한 모델은 일반적으로 공간 오디오 신호에 인코딩된 공간적 특성이 인간의 운동에 미치는 영향을 간과하고 있습니다. 이 간극을 메우고 공간 오디오에 대한 인간의 움직임을 고급으로 모델링하기 위해, 우리는 다양한이고 고품질의 공간 오디오와 운동 데이터를 포함하는 최초의 포괄적인 공간 오디오 기반 인간 운동(SAM) 데이터셋을 소개합니다. 벤치마킹을 위해 우리는 단순하면서도 효과적인 확산 기반 생성 프레임워크인 MOSPA(Motion generation driven by SPatial Audio)를 개발했습니다. 이 프레임워크는 효과적인 융합 메커니즘을 통해 몸짓과 공간 오디오 사이의 관계를 충실하게 포착합니다. 훈련이 완료되면 MOSPA는 다양한 공간 오디오 입력 조건 하에서 다양한 현실적인 인간 움직임을 생성할 수 있습니다. 우리는 제안된 데이터셋에 대한 철저한 분석을 수행하고 벤치마킹을 위한 광범위한 실험을 실시하였으며, 우리의 방법은 이 과제에서 최고 수준의 성능을 달성하였습니다. 우리의 모델과 데이터셋은 승인 시 오픈 소스로 공개될 예정입니다. 자세한 내용은 보충 비디오를 참조하시기 바랍니다.