16일 전
흐로우 매칭을 이용한 통합 음성 및 제스처 합성
Shivam Mehta, Ruibo Tu, Simon Alexanderson, Jonas Beskow, Éva Székely, Gustav Eje Henter

초록
음성 합성 기술이 독서형 작업에서 놀라운 자연스러움을 달성함에 따라, 자연스러운 말투와 관련된 신체 제스처를 포함한 구두 및 비구두 의사소통 행동의 다중모달 합성에 대한 관심이 증가하고 있다. 본 논문은 텍스트로부터 음성 음향과 스키넷 기반 3차원 제스처 운동을 동시에 합성할 수 있는 새로운 통합 아키텍처를 제안한다. 이 아키텍처는 최적 운송 조건부 흐름 매칭(OT-CFM)을 사용하여 훈련되며, 기존 최신 기술보다 더 단순한 구조를 가지며 메모리 사용량도 작고, 음성과 제스처의 공동 분포를 효과적으로 포착할 수 있어 하나의 단일 프로세스 내에서 두 모달리티를 동시에 생성할 수 있다. 또한, 제안된 새로운 훈련 방식은 이전보다 훨씬 적은 단계(네트워크 평가 횟수)로 더 우수한 합성 품질을 달성할 수 있다. 단모달 및 다중모달 주관적 평가 결과는 기존 벤치마크 대비 음성의 자연스러움, 제스처의 인간 유사성, 그리고 다중모달 간의 적절성이 향상되었음을 입증한다. 동영상 예시 및 코드는 다음 링크에서 확인할 수 있다: https://shivammehta25.github.io/Match-TTSG/