17일 전
채널 주의력 기반 밀집 U-Net을 이용한 다중 채널 음성 강화
Bahareh Tolooshams, Ritwik Giri, Andrew H. Song, Umut Isik, Arvindh Krishnaswamy

초록
최근 들어 감독 학습 기반의 딥러닝 기법이 음성 강화 분야에서 큰 주목을 받고 있다. 최신 딥러닝 기법들은 시간-주파수 도메인에서 혼합 신호에 비율 마스크 또는 이진 마스크를 적용함으로써 클리어 음성을 생성하는 방식으로 작업을 수행한다. 단일 채널 환경에서는 뛰어난 성능을 보이지만, 다중 채널 환경에서는 대부분의 기법들이 a) 가용한 공간 정보를 충분히 활용하지 못하고, b) 딥 아키텍처를 여전히 '블랙 박스'처럼 취급함으로써 다중 채널 오디오 처리에 적합하지 않을 수 있다는 한계를 지닌다. 본 논문은 이러한 한계를 극복하기 위해, a) 스펙트로그램의 크기 값에 대한 마스킹 대신 복소수 비율 마스킹을 사용하고, 더 중요한 점으로 b) 딥 아키텍처 내부에 채널 주의 메커니즘(channel-attention mechanism)을 도입하여 비음향 빔포밍(beamforming)을 모방하는 방식을 제안한다. 제안하는 모델인 채널 주의 밀도 U-넷(Channel-Attention Dense U-Net)은 네트워크의 각 레이어에서 특징 맵에 대해 채널 주의 유닛을 반복적으로 적용함으로써 비선형 빔포밍을 수행할 수 있도록 한다. 제안된 네트워크는 CHiME-3 데이터셋을 기반으로 기존 최고 수준의 접근법들에 비해 뛰어난 성능을 입증하였다.