15일 전

SPGM: 음성 분리 성능 향상을 위한 국지적 특징 우선순위 부여

Jia Qi Yip, Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Dianwen Ng, Eng Siong Chng, Bin Ma
SPGM: 음성 분리 성능 향상을 위한 국지적 특징 우선순위 부여
초록

이중 경로(Dual-path)는 Sepformer 등 음성 분리 모델에서 널리 사용되는 아키텍처로, 긴 시퀀스를 겹치는 청크(chunk)로 분할하여 내부 블록(intra-block)과 외부 블록(inter-block)이 각각 청크 내 국소적 특징과 청크 간 전역적 관계를 별도로 모델링한다. 그러나 기존 연구에서 외부 블록이 이중 경로 모델의 총 파라미터의 절반을 차지함에도 불구하고 성능 향상에 거의 기여하지 않는 것으로 밝혀졌다. 이를 해결하기 위해 우리는 외부 블록을 대체할 수 있는 싱글패스 글로벌 모듈레이션(Single-Path Global Modulation, SPGM) 블록을 제안한다. SPGM은 파라미터가 없는 글로벌 풀링 모듈과 전체 모델 파라미터의 단지 2%만을 차지하는 모듈레이션 모듈로 구성된 구조에서 이름이 유래한다. SPGM 블록은 모델 내 모든 트랜스포머 레이어를 국소적 특징 모델링에 집중시켜 전체 모델을 싱글패스 구조로 만든다. 실험 결과, SPGM은 WSJ0-2Mix에서 22.1 dB의 SI-SDRi, Libri2Mix에서 20.4 dB의 SI-SDRi를 달성하여 Sepformer보다 각각 0.5 dB, 0.3 dB 우수하며, 최신 SOTA 모델과 비슷한 성능을 8배 이상 적은 파라미터로 달성한다. 모델 및 가중치는 huggingface.co/yipjiaqi/spgm에서 제공된다.

SPGM: 음성 분리 성능 향상을 위한 국지적 특징 우선순위 부여 | 최신 연구 논문 | HyperAI초신경