17일 전
DNN 기반 저지연 음성 강화를 위한 시간적 컨볼루션 네트워크에서 최적의 손실 함수 탐색
Yuichiro Koyama, Tyler Vuong, Stefan Uhlich, Bhiksha Raj

초록
최근 들어 심층 신경망(DNN)은 음성 강화에 성공적으로 활용되었으며, DNN 기반 음성 강화는 매력적인 연구 분야로 부상하고 있다. 지난 몇 년간 DNN 기반 음성 강화에 널리 사용된 방법은 단기 푸리에 변환(STFT) 기반의 시간-주파수 마스킹이었지만, 시간 영역 방법으로는 시간 도메인 오디오 분리 네트워크(TasNet)와 같은 기법도 제안되었다. 가장 적합한 방법은 데이터셋의 규모와 작업 유형에 따라 달라진다. 본 논문에서는 두 가지 다른 데이터셋에서 최적의 음성 강화 알고리즘을 탐색한다. 우리는 더 작은 데이터셋에서 주관적 품질을 향상시키기 위해 문제 무관 음성 인코더(PASE) 특징을 활용한 STFT 기반 방법과 손실 함수를 제안한다. 제안된 방법은 Voice Bank + DEMAND 데이터셋에서 효과적이며, 다른 최첨단 방법들과 경쟁력을 갖는 성능을 보였다. 또한 TasNet의 저지연 버전을 구현하여 DNS 챌린지에 제출하였으며, 오픈소스로 공개하였다. 제안 모델은 DNS 챌린지 데이터셋에서 뛰어난 성능을 달성하였다.