17일 전

음성 강화를 위한 깊은 잔차-밀도 격자 네트워크

Mohammad Nikzad, Aaron Nicolson, Yongsheng Gao, Jun Zhou, Kuldip K. Paliwal, Fanhua Shang
음성 강화를 위한 깊은 잔차-밀도 격자 네트워크
초록

잔차 연결(Residual links)을 갖춘 합성곱 신경망(Convolutional neural networks, CNNs, ResNets)과 인과적 확장 합성곱 유닛(Causal dilated convolutional units)은 음성 개선을 위한 딥러닝 접근법에서 주로 사용되는 네트워크 구조이다. 잔차 연결은 학습 중 기울기 흐름을 개선하지만, 얕은 층의 출력이 깊은 층의 출력과 반복적으로 더해지면서 특징 정보의 감소(feature diminution)가 발생할 수 있다. 특징 정보의 재사용을 개선하기 위한 전략으로 ResNet과 밀집 연결 합성곱 신경망(DenseNets)을 결합하는 방식이 존재한다. 그러나 DenseNet은 특징 재사용을 위해 과도하게 파라미터를 할당한다. 이러한 문제를 해결하고자, 본 연구에서는 특징 재사용을 위한 파라미터 과도 할당 없이 잔차 및 밀집 집계(aggregate)를 동시에 활용하는 새로운 CNN 구조인 잔차-밀집 격자망(Residual-Dense Lattice Network, RDL-Net)을 제안한다. 이는 RDL 블록의 구조적 특성에 의해 달성되며, 밀집 집계에 사용되는 출력 수를 제한함으로써 파라미터 과잉을 방지한다. 광범위한 실험 결과에 따르면, RDL-Net은 잔차 또는 밀집 집계만을 사용하는 기존 CNN보다 더 높은 음성 개선 성능을 달성함을 확인하였다. 또한 RDL-Net은 파라미터 수가 현저히 적고 계산 요구량도 낮은 특성을 지닌다. 더불어, RDL-Net이 많은 최신의 딥러닝 음성 개선 기법들을 능가함을 실험적으로 입증하였다.