17일 전

밴드 분할 RNN을 활용한 고정밀 음성 증강

Jianwei Yu, Yi Luo, Hangting Chen, Rongzhi Gu, Chao Weng

초록

음성 강화(SE) 연구 분야는 빠른 발전을 이루고 있으나, 강한 노이즈 환경과 간섭하는 여러 발화자들이 존재하는 상황에서 원하는 음성의 품질을 향상시키는 것은 여전히 도전적인 과제이다. 본 논문에서는 최근 제안된 밴드 분할 RNN(BS RNN) 모델의 적용 범위를 전체 대역(SE) 및 개인화된 음성 강화(PSE) 작업으로 확장한다. 전체 대역 음성에서 불안정한 고주파 성분의 영향을 완화하기 위해, 저주파 및 고주파 하위대역에 대해 각각 양방향 및 단방향 밴드 수준 모델링을 수행한다. PSE 작업을 위해 BSRNN에 발화자 등록 모듈을 통합하여 대상 발화자 정보를 활용한다. 또한, 주관적 품질 지표를 향상시키기 위해 MetricGAN 판별자(MGD)와 다중 해상도 스펙트로그램 판별자(MRSD)를 활용한다. 실험 결과, 제안한 시스템은 다양한 최상위 수준의 SE 시스템을 능가하며, DNS-2020 테스트 세트에서 최첨단(SOTA) 성능을 달성했고, DNS-2023 챌린지에서 상위 3위 내에 진입했다.