17일 전

확산 기반 음성 강화의 분산 분석

Bunlong Lay, Timo Gerkmann
확산 기반 음성 강화의 분산 분석
초록

확산 모델은 생성형 음성 개선 분야에서 강력한 모델로 입증되었다. 최근의 SGMSE+ 접근법에서는 확산 과정을 위한 확률적 미분 방정식(stochastic differential equation)을 사용하여, 청정 음성 신호에 점진적으로 가우시안 노이즈와 환경 노이즈를 추가하는 방식으로 학습을 수행한다. 음성 개선 성능은 환경 노이즈와 가우시안 노이즈를 추가하는 확산 과정에서 평균과 분산의 진화를 제어하는 확률적 미분 방정식의 선택에 따라 달라진다. 본 연구에서는 분산의 크기가 음성 개선 성능에 결정적인 영향을 미친다는 점을 강조하며, 이 분산 크기가 노이즈 감쇠와 음성 왜곡 사이의 트레이드오프를 조절함을 보여준다. 구체적으로, 더 큰 분산은 노이즈 감쇠 성능을 향상시키며, 추정치를 생성하기 위한 함수 평가 횟수를 줄여 계산 부담을 감소시킬 수 있음을 실험적으로 확인하였다.