2달 전

xLSTM-SENet: 단일 채널 음성 향상용 xLSTM

Kühne, Nikolai Lund ; Østergaard, Jan ; Jensen, Jesper ; Tan, Zheng-Hua
xLSTM-SENet: 단일 채널 음성 향상용 xLSTM
초록

주목 기반 아키텍처인 컨포머(Conformer)는 음성 향상에서 뛰어난 성능을 보이지만, 입력 시퀀스 길이에 따른 확장성 문제를 겪고 있습니다. 반면, 최근 제안된 확장형 장단기 기억(Extended Long Short-Term Memory, xLSTM) 아키텍처는 선형 확장성을 제공합니다. 그러나 xLSTM 기반 모델은 아직 음성 향상 분야에서 연구되지 않았습니다. 본 논문에서는 xLSTM-SENet이라는 첫 번째 xLSTM 기반 단일 채널 음성 향상 시스템을 소개합니다. 비교 분석 결과, xLSTM와 특히 LSTM은 VoiceBank+Demand 데이터셋에서 다양한 모델 크기에 걸쳐 최신 맘바(Mamba)와 컨포머 기반 시스템의 성능을 일치시키거나 능가할 수 있었습니다. 생략 연구(ablation studies)를 통해 지수 게이팅(exponential gating)과 양방향성(bidirectionality) 등 주요 설계 선택 사항들이 그 효과에 기여하는 것을 확인하였습니다. 우리 최고의 xLSTM 기반 모델인 xLSTM-SENet2는 Voicebank+DEMAND 데이터셋에서 유사한 복잡도를 가진 최신 맘바와 컨포머 기반 시스템보다 우수한 성능을 보였습니다.