
초록
딥 신경망 기반의 음성 합성 시스템은 영어에 대해 광범위하게 평가되어 무료로 공개되고 있으나, 독일어와 같이 활발한 사용자가 훨씬 적은 언어를 위한 모델은 거의 훈련되지 않았으며, 대부분 일반 사용을 위해 공개되지 않고 있다. 본 연구는 독일어를 위한 텍스트-to-음성 모델 훈련 시 직면하는 특수한 과제들—예를 들어 데이터셋 선택 및 데이터 전처리—에 대해 다루며, Tacotron 2와 Multi-Band MelGAN의 조합을 기반으로 한 엔드투엔드 텍스트-to-음성 시스템의 여러 모델 훈련 과정을 제시한다. 모든 모델 구성은 평균 의견 점수(Mean Opinion Score, MOS) 기준으로 평가되었으며, 영어 데이터셋에서 훈련 및 평가된 기존 모델과 유사한 성능을 보였다. 또한, 주관적인 사용자 경험을 기반으로 한 실증적 분석을 통해 이러한 시스템의 품질에 영향을 미치는 특정 요소들을 식별하였다. 본 연구에서 훈련된 모든 모델은 공개적으로 사용 가능하도록 제공된다.