15일 전

잡음이 있는 반향 음향 환경에서 단음성 음성 분리에 대한 시간 영역 컨포머 모델

William Ravenscroft, Stefan Goetze, Thomas Hain

초록

음성 분리 기술은 다중 화자 기술 분야의 연구자들에게 여전히 중요한 주제로 남아 있다. 컨볼루션 증강 트랜스포머(Convolution Augmented Transformers, Conformers)는 다양한 음성 처리 작업에서 뛰어난 성능을 보였으나, 음성 분리 분야에서는 아직 충분한 연구가 이루어지지 않았다. 최근 최첨단(SOTA) 음성 분리 모델의 대부분은 시간 도메인 음성 분리 네트워크(Time-Domain Audio Separation Networks, TasNets)를 기반으로 하고 있다. 여러 성공적인 모델들이 로컬 및 글로벌 정보를 순차적으로 처리하는 이중 경로(Dual-Path, DP) 네트워크를 활용해왔다. 시간 도메인 컨포머(Time-Domain Conformers, TD-Conformers)는 로컬 및 글로벌 맥락을 순차적으로 처리한다는 점에서 DP 접근법과 유사하지만, 시간 복잡도 함수가 다르다. 실제 짧은 신호 길이에 대한 실험을 통해, 특징 차원을 동일하게 유지할 때 컨포머가 더 효율적임이 입증되었다. 또한 계산 효율성을 further 향상시키기 위해 서브샘플링 계층을 제안하였다. 최적의 TD-Conformer 모델은 WHAMR 및 WSJ0-2Mix 벤치마크에서 각각 14.6 dB 및 21.2 dB의 SISDR 향상 성능을 달성하였다.