16일 전

Vocos: 고품질 오디오 합성에서 시간 영역 및 푸리에 기반 신경 음성합성기 간의 격차 해소

Hubert Siuzdak
Vocos: 고품질 오디오 합성에서 시간 영역 및 푸리에 기반 신경 음성합성기 간의 격차 해소
초록

최근 신경망 음성합성(neural vocoding)의 발전은 주로 시간 영역(time-domain)에서 작동하는 생성적 적대 신경망(GANs)에 의해 주도되고 있다. 이 방법은 효과적이지만, 시간-주파수 표현(time-frequency representation)이 제공하는 유도 편향(inductive bias)을 간과하여, 반복적이고 계산 비용이 큰 업샘플링 연산을 초래한다. 푸리에 기반의 시간-주파수 표현은 인간 청각 인지와 더 잘 부합하며, 그 계산에 대해 잘 정립된 빠른 알고리즘이 존재하므로 매력적인 대안이 될 수 있다. 그러나 복소수 스펙트로그램을 직접 재구성하는 것은 역사적으로 위상 회복(phase recovery) 문제로 인해 어려웠다. 본 연구는 이러한 격차를 메우기 위해, 푸리에 스펙트럼 계수를 직접 생성하는 새로운 모델인 Vocos를 제안한다. Vocos는 평가 결과를 통해 최신 기술 수준의 음질을 달성할 뿐만 아니라, 기존의 시간 영역 신경망 음성합성 기법 대비 속도를 한 차수(order of magnitude)만큼 크게 향상시켜 계산 효율성을 크게 개선했다. 소스 코드와 모델 가중치는 https://github.com/gemelo-ai/vocos 에 공개되어 있다.

Vocos: 고품질 오디오 합성에서 시간 영역 및 푸리에 기반 신경 음성합성기 간의 격차 해소 | 최신 연구 논문 | HyperAI초신경