17일 전
대화형 음성 및 노이즈 모델링을 통한 음성 강화
Chengyu Zheng, Xiulian Peng, Yuan Zhang, Sriram Srinivasan, Yan Lu

초록
음성 강화는 배경 잡음의 유형이 다양하기 때문에 도전적인 과제이다. 기존의 대부분의 방법들은 음성 모델링에 집중하는 반면, 잡음 모델링에는 거의 attention을 기울이지 않았다. 본 논문에서는 이에 대한 새로운 접근 방식을 제안하며, 두 가지 분기(convolutional neural network)를 갖는 SN-Net이라는 새로운 네트워크 구조를 도입한다. SN-Net에서는 두 개의 분기 각각이 음성과 잡음을 별도로 예측한다. 최종 출력 레이어에서만 정보 융합이 이루어지는 기존 방식과 달리, 두 분기 사이의 여러 중간 특징 영역에 상호작용 모듈(interaction module)을 도입하여 서로 보완할 수 있도록 한다. 이러한 상호작용을 통해 한 분기에서 학습된 특징을 활용하여 다른 분기의 부정적인 요소를 보정하고 소실된 성분을 복원함으로써 각 분기의 구분 능력을 향상시킬 수 있다. 또한, 음성과 잡음 모두에 대해 시간적 및 주파수적 차원에서의 상관관계를 효과적으로 포착하기 위해 잔차-합성-주의(Residual-Convolution-and-Attention, RA)라는 특징 추출 모듈을 설계하였다. 공개 데이터셋을 이용한 평가 결과, 상호작용 모듈이 동시 모델링에서 핵심적인 역할을 하며, 다양한 평가 지표에서 기존 최고 수준의 기법들을 크게 능가하는 성능을 보였다. 또한 제안된 SN-Net은 화자 분리(task)에서도 뛰어난 성능을 나타내었다.