음성 강화를 위한 깊은 잔차-밀도 격자 네트워크

잔차 연결(Residual links)을 갖춘 합성곱 신경망(Convolutional neural networks, CNNs, ResNets)과 인과적 확장 합성곱 유닛(Causal dilated convolutional units)은 음성 개선을 위한 딥러닝 접근법에서 주로 사용되는 네트워크 구조이다. 잔차 연결은 학습 중 기울기 흐름을 개선하지만, 얕은 층의 출력이 깊은 층의 출력과 반복적으로 더해지면서 특징 정보의 감소(feature diminution)가 발생할 수 있다. 특징 정보의 재사용을 개선하기 위한 전략으로 ResNet과 밀집 연결 합성곱 신경망(DenseNets)을 결합하는 방식이 존재한다. 그러나 DenseNet은 특징 재사용을 위해 과도하게 파라미터를 할당한다. 이러한 문제를 해결하고자, 본 연구에서는 특징 재사용을 위한 파라미터 과도 할당 없이 잔차 및 밀집 집계(aggregate)를 동시에 활용하는 새로운 CNN 구조인 잔차-밀집 격자망(Residual-Dense Lattice Network, RDL-Net)을 제안한다. 이는 RDL 블록의 구조적 특성에 의해 달성되며, 밀집 집계에 사용되는 출력 수를 제한함으로써 파라미터 과잉을 방지한다. 광범위한 실험 결과에 따르면, RDL-Net은 잔차 또는 밀집 집계만을 사용하는 기존 CNN보다 더 높은 음성 개선 성능을 달성함을 확인하였다. 또한 RDL-Net은 파라미터 수가 현저히 적고 계산 요구량도 낮은 특성을 지닌다. 더불어, RDL-Net이 많은 최신의 딥러닝 음성 개선 기법들을 능가함을 실험적으로 입증하였다.