3일 전
마르코보이스 기술 보고서
Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, et al

초록
이 논문은 음성 클로닝과 감정 제어 음성 합성 기능을 통합한 다기능 음성 합성 시스템을 제안한다. 본 연구의 목적은 다양한 언어적 및 감정적 맥락에서 화자 정체성을 충실하게 유지하면서도, 높은 표현력과 조작 가능성이 있으며 자연스러운 음성 생성을 실현하는 데 오랫동안 존재해온 과제를 해결하는 것이다. 제안하는 방법은 배치 내 대조 학습(contrastive learning)을 활용한 효과적인 화자-감정 분리 메커니즘을 도입하여, 화자 정체성과 감정 스타일을 독립적으로 조작할 수 있도록 하며, 감정 변화의 매끄러운 전환을 가능하게 하는 회전형 감정 임베딩 통합 기법을 제안한다. 포괄적인 학습 및 평가를 지원하기 위해, 6명의 전문 화자로부터 수집한 10시간 분량의 중국어(국어) 음성 데이터를 포함하는 고품질 감정 음성 데이터셋인 CSEMOTIONS을 구축하였다. 이 데이터셋은 7개의 감정 범주를 포함하고 있다. 광범위한 실험 결과를 통해, 제안하는 시스템인 Marco-Voice가 객관적 및 주관적 평가 지표 모두에서 두드러진 성능 향상을 달성함을 확인하였다. 포괄적인 평가와 분석 결과, Marco-Voice는 음성의 명료성과 감정적 풍부성 측면에서 경쟁력 있는 성능을 보이며, 표현력 있는 신경망 음성 합성 분야에서 중대한 진전을 나타낸다. 본 연구의 코드와 데이터셋은 각각 다음 URL에서 공개되어 있다.