3달 전

웨이브포름 도메인에서 자기 주의(Self-Attention)를 이용한 음성 노이즈 제거

Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro
웨이브포름 도메인에서 자기 주의(Self-Attention)를 이용한 음성 노이즈 제거
초록

본 연구에서는 원시 웨이브포름(원시 음성 신호) 기반의 인과적 음성 노이즈 제거 모델인 CleanUNet을 제안한다. 제안된 모델은 인코더-디코더 아키텍처를 기반으로 하며, 봉쇄(bottleneck) 표현을 정교화하기 위해 여러 개의 자체 주의(self-attention) 블록을 통합하고 있다. 이는 우수한 성능을 달성하는 데 핵심적인 요소이다. 모델은 원시 웨이브포름과 다중 해상도 스펙트로그램에 기반한 여러 손실 함수를 통해 최적화된다. 제안된 방법은 다양한 객관적 및 주관적 평가 지표에서 최신 기술(SOTA) 모델들을 능가하는 노이즈 제거 음성 품질을 보여준다. 코드 및 모델은 https://github.com/nvidia/cleanunet 에서 공개한다.