17일 전
단음성 음성 개선을 위한 복소 컨볼루션 블록 주의 모듈과 결합 시간 주파수 손실 함수
Shengkui Zhao, Trung Hieu Nguyen, Bin Ma

초록
단일 마이크 음성 강화에서 최신 성능을 달성하는 깊이 있는 복소수 U-넷 구조와 합성곱 순환 네트워크(CRN) 구조는 모두 스킵 연결을 갖춘 인코더-디코더 아키텍처이며, 복소수 값 합성곱 층의 표현 능력에 크게 의존한다. 본 논문에서는 복소수 값 합성곱 층의 표현 능력을 향상시키기 위해 더 정보가 �-rich한 특징을 생성함으로써 복소수 합성곱 블록 주의 모듈(Complex Convolutional Block Attention Module, CCBAM)을 제안한다. CCBAM은 경량화되고 일반적인 구조를 지닌 모듈로, 어떤 복소수 값 합성곱 층에도 간편하게 통합할 수 있다. 제안된 CCBAM을 깊이 있는 복소수 U-넷과 CRN과 결합하여 음성 강화 성능을 향상시켰다. 또한 시간-주파수(TF) 도메인과 시간 도메인에서 복소수 모델을 동시에 최적화할 수 있도록 혼합 손실 함수(mixed loss function)를 추가로 제안하였다. CCBAM과 혼합 손실 함수를 통합함으로써 새로운 엔드투엔드(E2E) 복소수 음성 강화 프레임워크를 구성하였다. 제안된 방법의 우수성을 검증하기 위해 아블레이션 실험과 객관적 평가를 수행한 결과, 기존 방법 대비 뛰어난 성능을 입증하였다. (https://github.com/modelscope/ClearerVoice-Studio)