13일 전

FastDiff: 고품질 음성 합성용 빠른 조건부 확산 모델

Rongjie Huang, Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu, Yi Ren, Zhou Zhao
FastDiff: 고품질 음성 합성용 빠른 조건부 확산 모델
초록

최근 디노이징 확산 확률 모델(Denosing Diffusion Probabilistic Models, DDPMs)은 다양한 생성 과제에서 최상의 성능을 달성하고 있다. 그러나 기존의 반복적 샘플링 과정으로 인한 높은 계산 비용으로 인해 음성 합성 분야에의 적용이 제한되어 왔다. 본 논문에서는 고품질 음성 합성을 위한 빠른 조건부 확산 모델인 FastDiff를 제안한다. FastDiff는 다양한 수용 영역 패턴을 가진 시간 인식형 위치 변수 컨볼루션의 스택을 활용하여 적응형 조건 하에서 장기적인 시간 의존성을 효율적으로 모델링한다. 또한, 생성 품질을 희생하지 않고 샘플링 단계를 줄이기 위해 노이즈 스케줄 예측기(Noise Schedule Predictor)를 도입하였다. FastDiff를 기반으로, 중간 특징(예: 멜스펙트로그램) 없이 고음질 음성 웨이브포트를 직접 생성하는 엔드투엔드 텍스트투스피치 합성기인 FastDiff-TTS를 설계하였다. FastDiff의 평가 결과, 최첨단 성능을 보이며, 더 높은 품질의 음성 샘플(MOS 4.28)을 생성함을 입증하였다. 또한, V100 GPU에서 실시간 대비 58배 빠른 샘플링 속도를 달성하여, 확산 모델이 음성 합성 배포에 실제로 활용될 수 있도록 하는 전환점이 되었다. 더 나아가, FastDiff는 미리 알지 못한 화자의 멜스펙트로그램 복원에 잘 일반화되었으며, 엔드투엔드 텍스트투스피치 합성에서 다른 경쟁 기법들을 능가하는 성능을 보였다. 오디오 샘플은 \url{https://FastDiff.github.io/}에서 확인할 수 있다.

FastDiff: 고품질 음성 합성용 빠른 조건부 확산 모델 | 최신 연구 논문 | HyperAI초신경