2달 전
단일 채널 잡음이 있는 화성음 분리용 변형 가능한 시계열 합성곱 신경망
William Ravenscroft; Stefan Goetze; Thomas Hain

초록
음성 분리 모델은 많은 음성 처리 애플리케이션에서 개별 화자를 분리하는 데 사용됩니다. 딥러닝 모델은 여러 음성 분리 벤치마크에서 최신 기술(SOTA) 수준의 결과를 보여주었습니다. 이러한 모델 중 하나인 시간적 컨볼루셔널 네트워크(TCN, Temporal Convolutional Networks)는 음성 분리 작업에서 유망한 결과를 보여주고 있습니다. 그러나 이들 모델의 한계점은 고정된 수용 필드(RF, Receptive Field)를 가지고 있다는 것입니다. 최근 음향 제차 연구에서는 TCN의 최적 RF가 음성 신호의 반향 특성에 따라 달라짐을 보여주었습니다. 본 연구에서는 변형 컨볼루션을 제안하여 반향된 음성 분리를 위해 TCN 모델이 다양한 반향 시간에 적응할 수 있는 동적인 RF를 가질 수 있도록 하였습니다. 제안된 모델들은 WHAMR 벤치마크에서 입력 신호 대비 평균 11.1 dB의 스케일 불변 신호대잡음비(SISDR, Scale-Invariant Signal-to-Distortion Ratio) 향상을 달성할 수 있습니다. 또한 1.3M 파라미터로 구성된 비교적 작은 변형 TCN 모델이 제안되어, 더 크고 계산적으로 복잡한 모델과 유사한 분리 성능을 제공합니다.