스피커 조건 WaveRNN: 미지의 스피커 및 기록 조건을 위한 유니버설 신경망 보이서로의 도전

최근 딥러닝 기술의 발전으로 단일 화자 음성 합성에서 인간 수준의 성능이 달성되었다. 그러나 특히 미리 보지 못한 화자나 미리 보지 못한 녹음 품질에 대해 일반화할 때 음성 품질 측면에서 여전히 한계가 존재한다. 예를 들어, 기존의 신경망 음성합성기(Vocoder)는 훈련 중 사용된 화자에 맞게 조정되어 있으며, 미지의 화자에 대한 일반화 능력이 떨어진다. 본 연구에서는 웨이브RNN(WaveRNN)의 변형 모델인 화자 조건부 웨이브RNN(Speaker Conditional WaveRNN, SC-WaveRNN)을 제안한다. 이 모델은 미지의 화자 및 녹음 조건에서도 효율적인 통합형 음성합성기 구현을 목표로 한다. 기존의 표준 웨이브RNN과 달리, SC-WaveRNN은 화자 임베딩(Speaker Embedding) 형태의 추가 정보를 활용한다. 공개된 데이터를 활용한 훈련을 통해 SC-WaveRNN은 주관적 및 객관적 평가 지표 모두에서 기준 웨이브RNN보다 뛰어난 성능을 달성한다. MOS(Mean Opinion Score) 기준으로, 기존 화자 및 기존 녹음 조건에서는 약 23% 향상되었고, 미지 화자 및 미지 조건에서는 최대 95%의 성능 향상을 기록하였다. 마지막으로, 본 연구는 제로샷 화자 적응(Zero-shot Speaker Adaptation)과 유사한 다화자 음성합성(Text-to-Speech, TTS) 시스템 구현을 통해 확장하였다. 성능 평가 결과, 기존 화자에 대해 60% 대비 15.5%로, 미지 화자에 대해 60.9% 대비 32.6%로, 본 시스템은 기준 TTS 시스템보다 상당한 우위를 보였다.