15일 전
이중 경로 트랜스포머 네트워크: 엔드투엔드 단음성 음성 분리에 대한 직접적인 컨텍스트 인지 모델링
Jingjing Chen, Qirong Mao, Dong Liu

초록
주요 음성 분리 모델은 음성 시퀀스를 문맥에 조건부로 간접적으로 모델링하는 복잡한 순환 또는 합성곱 신경망 기반으로, 예를 들어 순환 신경망에서 많은 중간 상태를 통해 정보를 전달함으로써 최적의 분리 성능을 달성하지 못하는 문제가 있다. 본 논문에서는 음성 시퀀스 모델링에 직접적인 문맥 인지 능력을 도입한 엔드투엔드 음성 분리용 이중 경로 트랜스포머 네트워크(DPTNet)를 제안한다. 개선된 트랜스포머를 도입함으로써 음성 시퀀스의 요소들이 직접 상호작용할 수 있게 되어, DPTNet은 직접적인 문맥 인지 능력을 갖춘 음성 시퀀스 모델링이 가능해졌다. 본 연구에서 제안하는 개선된 트랜스포머는 위치 인코딩 없이도 순환 신경망을 원래 트랜스포머에 통합함으로써 음성 시퀀스의 순서 정보를 학습한다. 또한 이중 경로 구조는 극히 긴 음성 시퀀스 모델링에 있어 모델의 효율성을 높인다. 기준 데이터셋에서 실시한 광범위한 실험 결과, 본 방법은 기존 최고 성능 모델들을 능가하며, 공개된 WSj0-2mix 데이터 코퍼스에서 20.6 dB의 SDR 성능을 달성하였다.