17일 전

마스크 없는 신경망을 이용한 단음성 음성 강화

Liang Liu, Haixin Guan, Jinlong Ma, Wei Dai, Guangyong Wang, Shaowei Ding
마스크 없는 신경망을 이용한 단음성 음성 강화
초록

음성 강화 분야에서 목표 음성의 위상에 명확한 구조적 특징이 부족하기 때문에 보수적이고 복잡한 네트워크 아키텍처를 사용해야 한다. 직접적인 방법과 단순한 네트워크 구조로는 경쟁적인 성능을 달성하는 것이 어려워 보인다. 그러나 우리는 음성뿐만 아니라 역방향 노이즈도 직접 매핑할 수 있는 간단하고 직접적인 네트워크인 MFNet을 제안한다. 이 네트워크는 글로벌 로컬 포머 블록(Goal Local Former Blocks, GLFBs)을 단계적으로 쌓아 구성되며, Mobileblock의 글로벌 처리 능력과 Metaformer 아키텍처의 로컬 상호작용 특성을 결합한 구조를 갖는다. 실험 결과에 따르면, 매핑 기반 접근 방식이 마스킹 기반 방식보다 우수하며, 특히 강한 노이즈 환경에서는 역방향 노이즈를 직접 매핑하는 것이 최적의 솔루션이라는 점을 입증하였다. 반향이 없는 2020년 Deep Noise Suppression(DNS) 챌린지 테스트 세트에서 수평 비교를 수행한 결과, 우리 연구팀의 관점에서 MFNet은 현재까지 가장 최고의 성능을 보이는 매핑 모델(SOTA)로 확인되었다.