DCCRN: 위상 인지형 음성 증강을 위한 심층 복소수 컨볼루션 순환 네트워크

음성 강화 기술은 깊이 학습의 성공을 바탕으로 명료성과 청각적 품질 측면에서 큰 발전을 이루었다. 기존의 시간-주파수(Time-Frequency, TF) 도메인 방법은 단순한 합성곱 신경망(Convolutional Neural Network, CNN) 또는 순환 신경망(Recurrent Neural Network, RNN)을 활용하여 TF 마스크 또는 음성 스펙트럼을 예측하는 데 집중해왔다. 일부 최신 연구에서는 복소수 스펙트로그램을 학습 대상으로 삼지만, 실수값 네트워크에서 학습을 수행하며, 각각 크기와 위상 성분 또는 실수부와 허수부를 별도로 예측한다. 특히, 합성곱 인코더-디코더(Convolutional Encoder-Decoder, CED) 구조와 장기 단기 기억망(Long Short-Term Memory, LSTM)을 통합한 합성곱 순환 네트워크(Convolution Recurrent Network, CRN)는 복소수 목표에 대해 효과적임이 입증되었다. 복소수 목표를 보다 효과적으로 학습하기 위해 본 논문에서는 복소수 연산을 모사하는 새로운 네트워크 구조를 설계하였으며, 이를 '심층 복소수 합성곱 순환 네트워크(Deep Complex Convolution Recurrent Network, DCCRN)'라 명명하였다. DCCRN은 CNN과 RNN 구조 모두가 복소수 값을 직접 처리할 수 있도록 설계되어, 복소수 데이터의 특성을 자연스럽게 반영한다. 제안된 DCCRN 모델은 객관적 지표와 주관적 평가 모두에서 기존의 다른 네트워크들과 비교하여 매우 경쟁력 있는 성능을 보였다. 파라미터 수가 단지 370만 개에 불과한 이 DCCRN 모델은 인터스피치(Interspeech) 2020 심층 노이즈 제거(DNS) 챌린지에 참가하여 실시간 트랙에서 평균 관측 점수(Mean Opinion Score, MOS) 기준 1위, 비실시간 트랙에서 2위를 기록하며 뛰어난 성능을 입증하였다.