16일 전

흐로우 매칭을 이용한 통합 음성 및 제스처 합성

Shivam Mehta, Ruibo Tu, Simon Alexanderson, Jonas Beskow, Éva Székely, Gustav Eje Henter
흐로우 매칭을 이용한 통합 음성 및 제스처 합성
초록

음성 합성 기술이 독서형 작업에서 놀라운 자연스러움을 달성함에 따라, 자연스러운 말투와 관련된 신체 제스처를 포함한 구두 및 비구두 의사소통 행동의 다중모달 합성에 대한 관심이 증가하고 있다. 본 논문은 텍스트로부터 음성 음향과 스키넷 기반 3차원 제스처 운동을 동시에 합성할 수 있는 새로운 통합 아키텍처를 제안한다. 이 아키텍처는 최적 운송 조건부 흐름 매칭(OT-CFM)을 사용하여 훈련되며, 기존 최신 기술보다 더 단순한 구조를 가지며 메모리 사용량도 작고, 음성과 제스처의 공동 분포를 효과적으로 포착할 수 있어 하나의 단일 프로세스 내에서 두 모달리티를 동시에 생성할 수 있다. 또한, 제안된 새로운 훈련 방식은 이전보다 훨씬 적은 단계(네트워크 평가 횟수)로 더 우수한 합성 품질을 달성할 수 있다. 단모달 및 다중모달 주관적 평가 결과는 기존 벤치마크 대비 음성의 자연스러움, 제스처의 인간 유사성, 그리고 다중모달 간의 적절성이 향상되었음을 입증한다. 동영상 예시 및 코드는 다음 링크에서 확인할 수 있다: https://shivammehta25.github.io/Match-TTSG/

흐로우 매칭을 이용한 통합 음성 및 제스처 합성 | 최신 연구 논문 | HyperAI초신경