17일 전

신경망 기반 실시간 음성 증강을 위한 변조 도메인 손실

Tyler Vuong, Yangyang Xia, Richard M. Stern

초록

딥러닝 기반 음성 강화 시스템을 위한 조절 도메인 손실 함수를 제안한다. 학습 가능한 스펙트로-시계적 수용장(STRFs)을 활용하여 화자 식별 작업 최적화를 위해 적응시켰다. 학습된 STRFs는 음성 강화 시스템의 훈련을 위해 조절 도메인에서 가중 평균 제곱 오차(MSE)를 계산하는 데 사용되었다. 실험 결과, 스펙트로-시계적 도메인의 MSE에 조절 도메인의 MSE를 추가함으로써, 추론 시 추가 계산 부담 없이 실시간 음성 강화 시스템의 음성 품질 및 이해 가능성에 대한 객관적 예측 성능이 크게 향상됨을 확인하였다.