2달 전

OverFlow: 신경 변환기 위에 흐름을 추가하여 더 나은 TTS 실현

Shivam Mehta; Ambika Kirkland; Harm Lameris; Jonas Beskow; Éva Székely; Gustav Eje Henter
OverFlow: 신경 변환기 위에 흐름을 추가하여 더 나은 TTS 실현
초록

신경망 HMMs(Hidden Markov Models)는 최근 텍스트-음성 변환에서 시퀀스-시퀀스 모델링을 위해 제안된 신경 변환기의 한 유형입니다. 이들은 전통적인 통계적 음성 합성과 현대적인 신경망 TTS(Text-to-Speech)의 최고의 특성을 결합하여, 더 적은 데이터와 학습 업데이트를 필요로 하며, 신경망 주의력 실패로 인한 무의미한 출력에 덜 취약합니다. 본 논문에서는 신경망 HMM TTS를 정규화 흐름(normalising flows)과 결합하여, 음성 음향학의 높이 비가우시안(non-Gaussian) 분포를 설명하는 방법을 제시합니다. 그 결과, 지속 시간과 음향학을 정확한 최대 우도(maximum likelihood)를 사용하여 학습할 수 있는 강력하고 완전 확률적인 모델이 생성됩니다. 실험 결과, 우리 제안에 기반한 시스템은 유사한 방법들보다 더 적은 업데이트로 정확한 발음을 생성하며, 주관적인 음성 품질이 자연스러운 음성에 가깝다는 것을 보여줍니다. 오디오 예제와 코드는 https://shivammehta25.github.io/OverFlow/에서 확인하실 수 있습니다.

OverFlow: 신경 변환기 위에 흐름을 추가하여 더 나은 TTS 실현 | 최신 연구 논문 | HyperAI초신경