17일 전

대화형 음성 및 노이즈 모델링을 통한 음성 강화

Chengyu Zheng, Xiulian Peng, Yuan Zhang, Sriram Srinivasan, Yan Lu
대화형 음성 및 노이즈 모델링을 통한 음성 강화
초록

음성 강화는 배경 잡음의 유형이 다양하기 때문에 도전적인 과제이다. 기존의 대부분의 방법들은 음성 모델링에 집중하는 반면, 잡음 모델링에는 거의 attention을 기울이지 않았다. 본 논문에서는 이에 대한 새로운 접근 방식을 제안하며, 두 가지 분기(convolutional neural network)를 갖는 SN-Net이라는 새로운 네트워크 구조를 도입한다. SN-Net에서는 두 개의 분기 각각이 음성과 잡음을 별도로 예측한다. 최종 출력 레이어에서만 정보 융합이 이루어지는 기존 방식과 달리, 두 분기 사이의 여러 중간 특징 영역에 상호작용 모듈(interaction module)을 도입하여 서로 보완할 수 있도록 한다. 이러한 상호작용을 통해 한 분기에서 학습된 특징을 활용하여 다른 분기의 부정적인 요소를 보정하고 소실된 성분을 복원함으로써 각 분기의 구분 능력을 향상시킬 수 있다. 또한, 음성과 잡음 모두에 대해 시간적 및 주파수적 차원에서의 상관관계를 효과적으로 포착하기 위해 잔차-합성-주의(Residual-Convolution-and-Attention, RA)라는 특징 추출 모듈을 설계하였다. 공개 데이터셋을 이용한 평가 결과, 상호작용 모듈이 동시 모델링에서 핵심적인 역할을 하며, 다양한 평가 지표에서 기존 최고 수준의 기법들을 크게 능가하는 성능을 보였다. 또한 제안된 SN-Net은 화자 분리(task)에서도 뛰어난 성능을 나타내었다.