15일 전

MossFormer2: 시간 도메인 단음성 음성 분리의 성능 향상을 위한 Transformer와 RNN-프리 반복 네트워크의 통합

Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Jiaqi Yip, Dianwen Ng, Bin Ma
MossFormer2: 시간 도메인 단음성 음성 분리의 성능 향상을 위한 Transformer와 RNN-프리 반복 네트워크의 통합
초록

이전에 제안한 MossFormer은 단일 마이크로 음성 분리(task)에서 희망적인 성능을 달성하였다. 그러나 이 모델은 주로 자기 주의(Self-attention) 기반의 MossFormer 모듈을 채택하고 있어, 장거리 및 거시적 스케일의 의존성에 집중하는 경향이 있으며, 세밀한 스케일의 순환 패턴을 효과적으로 모델링하지 못하는 한계를 지닌다. 본 논문에서는 MossFormer 아키텍처에 순환 모듈을 통합함으로써 장거리 거시적 스케일의 의존성과 세밀한 스케일의 순환 패턴을 동시에 모델링할 수 있는 새로운 하이브리드 모델을 제안한다. 기존의 전통적인 순환 연결을 사용하는 순환 신경망(RNN)이 아닌, 순환 연결을 사용하지 않아 ‘RNN-free’ 순환 네트워크로 간주되는 피드포워드 시계열 메모리 네트워크(Feedforward Sequential Memory Network, FSMN) 기반의 순환 모듈을 제안한다. 본 순환 모듈은 게이트드 컨볼루셔널 유닛(Gated Convolutional Unit, GCU)을 활용한 강화된 확장형 FSMN 블록과 밀집 연결(Dense Connections)을 주요 구성 요소로 포함한다. 또한 정보 흐름을 제어하기 위해 버틀넥 레이어와 출력 레이어도 추가하였다. 이 순환 모듈은 선형 투영과 컨볼루션을 기반으로 전체 시퀀스에 대해 원활하고 병렬적으로 처리할 수 있다. 통합된 MossFormer2 하이브리드 모델은 기존 MossFormer에 비해 뚜렷한 성능 향상을 보이며, WSJ0-2/3mix, Libri2Mix, WHAM!/WHAMR! 벤치마크에서 다른 최신 기술들보다 뛰어난 성능을 입증하였다 (https://github.com/modelscope/ClearerVoice-Studio).

MossFormer2: 시간 도메인 단음성 음성 분리의 성능 향상을 위한 Transformer와 RNN-프리 반복 네트워크의 통합 | 최신 연구 논문 | HyperAI초신경