13일 전

NaturalSpeech: 인간 수준의 품질을 갖춘 엔드투엔드 텍스트 투 스피치 합성

Xu Tan, Jiawei Chen, Haohe Liu, Jian Cong, Chen Zhang, Yanqing Liu, Xi Wang, Yichong Leng, Yuanhao Yi, Lei He, Frank Soong, Tao Qin, Sheng Zhao, Tie-Yan Liu
NaturalSpeech: 인간 수준의 품질을 갖춘 엔드투엔드 텍스트 투 스피치 합성
초록

최근 몇 년간 음성 합성(Text-to-Speech, TTS) 기술은 학계와 산업계에서 급속한 발전을 이뤘다. 이에 따라 자연스러운 인간 수준의 음성 품질을 달성할 수 있는지, 그 품질을 어떻게 정의하거나 평가할 수 있는지, 그리고 이를 어떻게 달성할 수 있는지에 대한 질문들이 자연스럽게 제기된다. 본 논문에서는 이러한 질문에 답하기 위해 먼저 주관적 평가의 통계적 유의성 기반으로 인간 수준의 품질을 정의하고, 그 품질을 판단하기 위한 적절한 지침을 제시한 후, 기준 데이터셋에서 인간 수준의 품질을 달성하는 TTS 시스템인 NaturalSpeech를 개발한다. 구체적으로, 텍스트에서 파형까지의 엔드투엔드 생성을 위해 변분 오토인코더(Variational Autoencoder, VAE)를 활용하며, 텍스트로부터 사전 분포(prior)의 표현 능력을 강화하고 음성에서 사후 분포(posterior)의 복잡성을 감소시키기 위한 여러 핵심 모듈을 도입한다. 이들 모듈에는 음소 사전 훈련(phoneme pre-training), 미분 가능한 지속 시간 모델링(differentiable duration modeling), 양방향 사전/사후 모델링(bidirectional prior/posterior modeling), 그리고 VAE 내부의 메모리 메커니즘(memory mechanism)이 포함된다. 인기 있는 LJSpeech 데이터셋에서 수행된 실험 평가 결과, 제안하는 NaturalSpeech는 문장 수준에서 인간 음성 녹음과 비교해 -0.01의 CMOS(비교적 평균 관점 점수, Comparative Mean Opinion Score)를 기록했으며, 윌콕슨 부호 순위 검정(Wilcoxon signed rank test) 결과 p값이 0.05보다 훨씬 큰 수준(p >>> 0.05)으로 나타나, 이 데이터셋에서 인간 음성과 통계적으로 유의미한 차이가 없음을 처음으로 입증하였다.

NaturalSpeech: 인간 수준의 품질을 갖춘 엔드투엔드 텍스트 투 스피치 합성 | 최신 연구 논문 | HyperAI초신경