17일 전
단일 단계형 음성 노이즈 제거 및 리버버베이션 제거를 위한 단계 인식 U-Net
Hyeong-Seok Choi, Hoon Heo, Jie Hwan Lee, Kyogu Lee

초록
본 연구에서는 단일 단계 프레임워크를 통해 노이즈 제거 및 리버버베이션 제거 문제를 다룬다. 노이즈 제거와 리버버베이션 제거는 일반적으로 별도의 도전 과제로 간주되며, 각각에 대해 별도의 모듈이 필요하나, 본 연구에서는 하나의 딥 네트워크를 공유하여 두 문제를 동시에 해결할 수 있음을 보인다. 이를 위해, 혼합 신호, 소스 신호, 그리고 잔여 성분이라는 세 가지 신호 성분 간의 복소 평면에서의 삼각부등식을 고려하면서 추정된 진폭 값을 재사용하여 청정 단계를 추정하는 새로운 마스킹 기법인 '단계 인지형 베타-시그모이드 마스크(Phase-aware Beta-sigmoid Mask, PHM)'를 제안한다. 직접 경로 소스와 리버버베이션 소스를 각각 처리하기 위해 두 개의 PHM을 사용함으로써, 추론 시점에서 강화된 음성 내 리버버베이션 비율을 제어할 수 있다. 또한 음성 강화 성능을 향상시키기 위해 새로운 시간 영역 손실 함수를 제안하며, 복소 영역에서의 MSE 손실 함수에 비해 합리적인 성능 향상을 입증한다. 마지막으로 실시간 추론을 달성하기 위해 U-Net에 대한 최적화 전략을 제안하였으며, 이는 기존의 단순한 버전 대비 계산 오버헤드를 최대 88.9%까지 감소시킨다.