2달 전
다음 10억 사용자를 위한 텍스트-음성 시스템 구축 방향
Gokul Karthik Kumar; Praveen S V; Pratyush Kumar; Mitesh M. Khapra; Karthik Nandakumar

초록
딥러닝 기반 텍스트-음성 변환(TTS) 시스템은 모델 아키텍처, 학습 방법론, 화자 및 언어 간의 일반화 측면에서 급속히 발전하고 있습니다. 그러나 이러한 발전은 인도 언어 음성 합성에 대해 충분히 조사되지 않았습니다. 인도 언어의 수와 다양성, 상대적으로 낮은 자원 가용성, 그리고 아직 테스트되지 않은 신경망 TTS의 다양한 발전 사항을 고려할 때 이러한 조사는 계산적으로 비용이 많이 드는 작업입니다. 본 논문에서는 드라비다어족과 인도-아리안어족에 대한 음향 모델, 보코더, 보조 손실 함수, 학습 일정, 그리고 화자와 언어의 다양성을 평가합니다. 이를 바탕으로 FastPitch와 HiFi-GAN V1을 사용하여 남녀 화자를 공동으로 학습한 단일 언어 모델이 가장 우수한 성능을 보임을 확인하였습니다. 이 설정을 통해 13개 언어에 대한 TTS 모델을 학습시키고 평가한 결과, 모든 언어에서 기존 모델보다 평균 의견 점수가 크게 개선된 것을 발견하였습니다. 우리는 이러한 모든 모델을 Bhashini 플랫폼에서 오픈 소스로 제공합니다.