학습된 계층적 교차 모달 연관성을 통한 공음성 제스처 생성

말과 일치하는 신체 및 제스처 동작을 생성하는 것은 가상 아바타 생성 분야에서 오랫동안 해결되지 않은 과제이다. 기존 연구들은 일반적으로 모든 관절의 자세를 동시에 생성하는 전역적 방식으로 자세를 합성한다. 그러나 이러한 단순한 처리 흐름은 세밀한 수준의 말과 동조하는 제스처를 생성하는 데 한계가 있다. 한 가지 중요한 관찰은, 말의 계층적 의미 구조와 인간 제스처의 계층적 구조가 자연스럽게 다양한 미세도(granularity)로 표현될 수 있으며, 이들 간에 상호 연결이 가능하다는 점이다. 말 음성과 인간 제스처 간의 풍부한 연결성을 극대화하기 위해, 본 연구에서는 말과 동조하는 제스처 생성을 위한 새로운 프레임워크인 계층적 음성-제스처(Hierarchical Audio-to-Gesture, HA2G)를 제안한다. HA2G는 계층적 음성 학습기(Hierarchical Audio Learner)를 통해 말 음성의 다양한 의미적 미세도에 걸쳐 표현을 추출하고, 계층적 제스처 추론기(Hierarchical Pose Inferer)가 이를 바탕으로 인간 자세를 점진적으로 계층적으로 재현한다. 또한, 생성된 제스처의 품질을 향상시키기 위해, 음성-텍스트 정렬 기반의 대조 학습 전략을 도입하여 더 나은 음성 표현을 얻는다. 광범위한 실험과 사용자 평가를 통해 제안된 방법이 현실감 있는 말과 동조하는 제스처를 효과적으로 생성하며, 기존 방법들에 비해 뚜렷한 성능 우위를 보임을 입증하였다. 프로젝트 페이지: https://alvinliu0.github.io/projects/HA2G