15일 전

Transformer 디코더 기반 어트랙터를 활용한 미지 수의 화자 분리 강화

Younglo Lee, Shukjae Choi, Byeong-Yeol Kim, Zhong-Qiu Wang, Shinji Watanabe
Transformer 디코더 기반 어트랙터를 활용한 미지 수의 화자 분리 강화
초록

우리는 음성 개수를 미리 알 수 없는 혼합 음성 신호를 분리하기 위해 설계된 새로운 음성 분리 모델을 제안한다. 제안된 모델은 1) 스펙트로-시간 패턴을 모델링할 수 있는 이중 경로 처리 블록, 2) 음성 개수를 사전에 알지 못해도 처리할 수 있는 트랜스포머 기반 어트랙터(Attractor) 계산 모듈(TDA), 3) 음성 간 관계를 모델링할 수 있는 삼중 경로 처리 블록을 단계적으로 구성한다. 고정된 소량의 학습된 음성 쿼리와 이중 경로 블록이 생성한 혼합 음성 임베딩을 입력으로 받아, TDA는 각 쿼리 간의 관계를 추론하고 각 음성에 대한 어트랙터 벡터를 생성한다. 추정된 어트랙터 벡터는 특성별 선형 조절 조건부(Feature-wise Linear Modulation Conditioning) 방식을 통해 혼합 음성 임베딩과 결합되어 음성 차원을 형성한다. TDA가 생성한 음성 정보를 조건부로 한 혼합 음성 임베딩은 최종적인 삼중 경로 블록에 입력되며, 이는 이중 경로 블록을 보완하여 음성 간 상호작용을 전담하는 추가 경로를 제공한다. 제안된 방법은 기존 문헌에서 보고된 최고 성능을 초월하며, 2- 및 3명의 음성자가 포함된 혼합 신호를 동시에 분리할 수 있는 단일 모델로 WSJ0-2 및 3mix 데이터셋에서 각각 SI-SDR 개선도 24.0 dB 및 23.7 dB(SI-SDRi)를 달성하였다. 또한, 이 모델은 최대 5명의 음성자를 포함한 음성 혼합 신호에 대한 소스 수 카운팅 및 분리에서도 뛰어난 성능과 일반화 능력을 보였다.

Transformer 디코더 기반 어트랙터를 활용한 미지 수의 화자 분리 강화 | 최신 연구 논문 | HyperAI초신경