15일 전

BigVGAN: 대규모 훈련을 갖춘 포괄적인 신경 음성 합성기

Sang-gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon
BigVGAN: 대규모 훈련을 갖춘 포괄적인 신경 음성 합성기
초록

최근 생성적 적대 신경망(GAN) 기반 보이서의 발전에도 불구하고, 음성 특징에 조건부로 원시 파형을 생성하는 모델은 다양한 녹음 환경에서 수많은 화자에 대해 고음질 음성을 합성하는 데 여전히 도전 과제가 있다. 본 연구에서는 미세 조정 없이도 다양한 분포 외 시나리오에 대해 잘 일반화되는 보편적인 보이서인 BigVGAN을 제안한다. 우리는 GAN 생성기 내에 주기적 활성화 함수와 앤티앨리어스(anti-aliased) 표현을 도입하여 음성 합성에 적합한 유도 편향(inductive bias)을 부여하고, 음질을 크게 향상시켰다. 또한, 기존 문헌에서 전례 없는 규모로 최대 112M 파라미터까지 GAN 보이서를 훈련시켰다. 우리는 대규모 GAN 훈련에서 발생하는 실패 모드를 식별하고 해결함과 동시에 과도한 정규화 없이 고음질 출력을 유지하였다. 단지 깨끗한 음성(LibriTTS) 데이터만으로 훈련된 본 연구의 BigVGAN은, 미리 보지 않은 화자, 언어, 녹음 환경, 노래 음성, 음악, 악기 음성 등 다양한 제로샷(분포 외) 조건에서 최신 기술 수준의 성능을 달성하였다. 코드 및 모델은 다음 링크에서 공개된다: https://github.com/NVIDIA/BigVGAN

BigVGAN: 대규모 훈련을 갖춘 포괄적인 신경 음성 합성기 | 최신 연구 논문 | HyperAI초신경