17일 전

생성형 음성 강화를 위한 훈련 목표 탐구

Julius Richter, Danilo de Oliveira, Timo Gerkmann
생성형 음성 강화를 위한 훈련 목표 탐구
초록

최근 들어 생성형 음성 개선 기술은 소음 환경에서 음성 품질을 향상시키는 데 있어 유망한 발전을 보이고 있다. 여러 가지 확산 기반 프레임워크가 존재하며, 각각 고유한 학습 목표와 학습 기법을 활용하고 있다. 본 논문은 스코어 기반 생성 모델과 슈뢰딩거 브리지(Schrödinger bridge)에 초점을 맞추어 이러한 프레임워크 간의 차이를 설명하고자 한다. 우리는 성능 비교를 위해 체계적인 실험을 수행하며, 각 모델의 학습 행동의 차이를 분석한다. 또한, 슈뢰딩거 브리지 프레임워크에 특화된 새로운 지각적 손실 함수를 제안하여, 개선된 성능과 더 나은 지각적 품질을 갖춘 음성 신호를 제공함을 입증한다. 모든 실험 코드와 사전 학습된 모델은 공개되어 있어 본 분야의 추가 연구 및 개발을 촉진할 수 있다.