
초록
최근 들어 생성형 음성 개선 기술은 소음 환경에서 음성 품질을 향상시키는 데 있어 유망한 발전을 보이고 있다. 여러 가지 확산 기반 프레임워크가 존재하며, 각각 고유한 학습 목표와 학습 기법을 활용하고 있다. 본 논문은 스코어 기반 생성 모델과 슈뢰딩거 브리지(Schrödinger bridge)에 초점을 맞추어 이러한 프레임워크 간의 차이를 설명하고자 한다. 우리는 성능 비교를 위해 체계적인 실험을 수행하며, 각 모델의 학습 행동의 차이를 분석한다. 또한, 슈뢰딩거 브리지 프레임워크에 특화된 새로운 지각적 손실 함수를 제안하여, 개선된 성능과 더 나은 지각적 품질을 갖춘 음성 신호를 제공함을 입증한다. 모든 실험 코드와 사전 학습된 모델은 공개되어 있어 본 분야의 추가 연구 및 개발을 촉진할 수 있다.