17일 전

FullSubNet+: 복소 스펙트로그램을 활용한 채널 주의력 FullSubNet을 위한 음성 강화

Jun Chen, Zilin Wang, Deyi Tuo, Zhiyong Wu, Shiyin Kang, Helen Meng
FullSubNet+: 복소 스펙트로그램을 활용한 채널 주의력 FullSubNet을 위한 음성 강화
초록

이전에 제안된 FullSubNet은 딥 노이즈 제거(DNS) 챌린지에서 뛰어난 성능을 달성하며 주목을 받았으나, 여전히 입력-출력 불일치 문제와 주파수 대역에 대한 미세한 처리 부족 등의 한계를 가지고 있다. 본 논문에서는 다음과 같은 주요 개선 사항을 반영한 확장된 단채널 실시간 음성 향상 프레임워크인 FullSubNet+을 제안한다. 첫째, 다중 스케일 컨볼루션과 채널 주의 메커니즘을 활용한 경량화된 다중 스케일 시간 민감 채널 주의(MulCA) 모듈을 설계하여, 노이즈 제거를 위해 더 구분력 있는 주파수 대역에 집중할 수 있도록 한다. 둘째, 노이즈가 포함된 음성 신호 내에 존재하는 위상 정보를 보다 효과적으로 활용하기 위해, magnitude, 실수 및 허수 스펙트로그램을 모두 입력으로 사용한다. 셋째, 원래의 전체 대역 모델에서 사용되는 장기 단기 기억(LSTM) 계층을 스택형 시계적 컨볼루션 네트워크(TCN) 블록으로 대체함으로써, 더 효율적인 전체 대역 추출 모듈인 full-band extractor를 설계하였다. DNS 챌린지 데이터셋에서의 실험 결과는 FullSubNet+이 우수한 성능을 보였음을 입증하며, 기존의 다양한 음성 향상 기법들을 뛰어넘는 최신 기술(SOTA) 수준의 성능을 달성하였다.

FullSubNet+: 복소 스펙트로그램을 활용한 채널 주의력 FullSubNet을 위한 음성 강화 | 최신 연구 논문 | HyperAI초신경