11일 전

Flowtron: 텍스트-to-음성 합성용 자기회귀적 플로우 기반 생성 네트워크

Rafael Valle, Kevin Shih, Ryan Prenger, Bryan Catanzaro
Flowtron: 텍스트-to-음성 합성용 자기회귀적 플로우 기반 생성 네트워크
초록

이 논문에서는 음성의 다양성과 스타일 전이를 제어할 수 있는 자동회귀적 흐름 기반 생성 네트워크인 Flowtron을 제안한다. Flowtron은 IAF의 통찰을 차용하여 Tacotron을 개선함으로써 고품질且 표현력 있는 멜스펙트로그램 합성을 가능하게 한다. Flowtron은 학습 데이터의 가능도를 최대화하는 방식으로 최적화되며, 이는 학습 과정을 단순하고 안정적으로 만든다. Flowtron은 데이터를 잠재 공간으로의 가역적 변환을 학습하여, 음성 합성의 다양한 측면(음높이, 음조, 말하는 속도, 리듬, 억양 등)을 조절할 수 있도록 한다. 평균 평가 점수(MOS) 결과에 따르면, Flowtron은 음성 품질 측면에서 최신 기술 수준의 TTS 모델들과 경쟁 가능한 성능을 보였다. 또한, 음성 다양성 제어, 샘플 간 보간, 학습 중에 보지 못한 화자 간 스타일 전이에 대한 실험 결과를 제시한다. 코드와 사전 학습된 모델은 https://github.com/NVIDIA/flowtron 에 공개될 예정이다.

Flowtron: 텍스트-to-음성 합성용 자기회귀적 플로우 기반 생성 네트워크 | 최신 연구 논문 | HyperAI초신경