2달 전

신경망 음성 합성기는 음성 초해상도에 필요한 전부입니다.

Liu, Haohe ; Choi, Woosung ; Liu, Xubo ; Kong, Qiuqiang ; Tian, Qiao ; Wang, DeLiang

초록

음성 초해상도(Speech Super-Resolution, SR)는 고주파 성분을 생성하여 음성 샘플링 레이트를 증가시키는 작업입니다. 기존의 음성 SR 방법들은 고정된 업샘플링 비율과 같은 제약 조건 하에서 훈련됩니다. 이러한 강한 제약은 실제 환경에서 일치하지 않는 경우에 일반화 능력이 부족할 가능성이 있습니다. 본 논문에서는 다양한 입력 해상도와 업샘플링 비율을 처리할 수 있는 신경망 보코더(Neural Vocoder) 기반의 음성 초해상도 방법(NVSR)을 제안합니다. NVSR은 멜 대역폭 확장 모듈, 신경망 보코더 모듈, 그리고 후처리 모듈로 구성되어 있습니다. 제안된 시스템은 VCTK 다중 화자 벤치마크에서 최고 수준의 결과를 달성하였습니다. 44.1 kHz 목표 해상도에서 NVSR은 로그 스펙트럼 거리 측면에서 WSRGlow보다 8%, Nu-wave보다 37% 우수한 성능을 보였으며, 지각적 품질에서도 상당히 더 우수한 결과를 얻었습니다. 또한, 사전 학습된 보코더에 대한 선행 지식이 음성 SR에 중요한 역할을 함을 간단한 복제 패딩(replication-padding) 방법으로 멜 대역폭 확장을 수행함으로써 입증하였습니다. 샘플은 다음 링크에서 확인할 수 있습니다: https://haoheliu.github.io/nvsr.