17일 전

리hythmic Gesticulator: 계층적 신경 임베딩을 통한 리듬 인지형 동시 언어 제스처 생성

Tenglong Ao, Qingzhe Gao, Yuke Lou, Baoquan Chen, Libin Liu
리hythmic Gesticulator: 계층적 신경 임베딩을 통한 리듬 인지형 동시 언어 제스처 생성
초록

말과 함께 자연스럽게 동반되는 제스처의 자동 합성은 인공적인 몸체를 갖춘 에이전트 개발 분야에서 점점 더 중요하면서도 도전적인 과제로 부상하고 있다. 기존의 시스템들은 주로 말과 제스처 간의 복잡하면서도 섬세한 조화를 고려하지 않고 엔드투엔드 방식으로 제스처를 생성하는 데 집중해 왔으며, 이로 인해 말과 제스처 간의 명확한 리듬과 의미를 효과적으로 추출하기 어려운 문제가 있었다. 본 연구에서는 리듬과 의미 측면에서 모두 신뢰할 수 있는 결과를 도출하는 새로운 공언 제스처 합성 방법을 제안한다. 리듬 측면에서는, 발화와 제스처 간의 시간적 일관성을 명시적으로 보장하기 위해 강건한 리듬 기반 분할 파이프라인을 포함하고 있다. 제스처의 의미 측면에서는 언어학 이론을 기반으로 말과 운동의 저수준 및 고수준 신경 임베딩을 효과적으로 분리하는 메커니즘을 설계하였다. 고수준 임베딩은 의미를 대표하고, 저수준 임베딩은 미세한 변동성을 반영한다. 마지막으로, 말과 운동의 계층적 임베딩 간에 대응 관계를 구축함으로써, 리듬과 의미를 고려한 제스처 합성을 실현하였다. 기존의 객관적 평가 지표, 새로 제안한 리듬 지표, 그리고 사용자 피드백을 통한 평가 결과, 본 방법은 기존 최첨단 시스템들에 비해 명확한 성능 우위를 보였다.