2달 전

SpEx+: 완전한 시간 영역 화자 추출 네트워크

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li

초록

스피커 추출은 다중 화자 환경에서 대상 화자의 참조 음성을 주어졌을 때 대상 음성 신호를 추출하는 것을 목표로 합니다. 최근에 우리는 주파수 영역 접근 방식에서 위상 추정을 피하는 시간 영역 솔루션인 SpEx를 제안했습니다. 그러나 SpEx는 화자 추출을 위해 시간 영역 음성 인코딩을 수행하면서 참조로서 주파수 영역 화자 임베딩을 사용하므로 완전한 시간 영역 솔루션이 아닙니다. 또한, 시간 영역과 주파수 영역 입력의 분석 창 크기가 서로 다릅니다. 이러한 불일치는 시스템 성능에 부정적인 영향을 미칩니다. 이러한 불일치를 제거하기 위해, 우리는 완전한 시간 영역 스피커 추출 솔루션인 SpEx+를 제안합니다. 구체적으로, 두 개의 동일한 음성 인코더 네트워크의 가중치를 묶습니다. 하나는 인코더-추출기-디코더 파이프라인에 사용되고, 다른 하나는 화자 인코더의 일부로 사용됩니다. 실험 결과, WSJ0-2mix-extr 데이터베이스에서 다른 성별 조건에서는 0.8dB, 같은 성별 조건에서는 2.1dB의 SDR 향상을 기존 최신 SpEx 베이스라인보다 달성함을 보여주었습니다.