17일 전
음성 개선에 Mamba 통합하기에 관한 연구
Rong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Szu-Wei Fu, Yu Tsao

초록
이 연구는 음성 증강(Speech Enhancement, SE) 과제를 위한 확장 가능한 상태공간 모델(Scalable State-Space Model, SSM)인 Mamba를 탐구하는 것을 목표로 한다. 본 연구에서는 Mamba 기반의 회귀 모델을 활용하여 음성 신호를 특성화하고, 이를 기반으로 SE 시스템을 구축하여 SEMamba라고 명명한다. SEMamba는 기본적 및 고급 SE 시스템에 Mamba를 핵심 모델로 통합함으로써 그 성질을 탐구하며, 신호 수준의 거리 측정과 목적지향적 손실 함수를 함께 활용한다. 실험 결과 SEMamba는 우수한 성능을 보이며, VoiceBank-DEMAND 데이터셋에서 PESQ 점수 3.55를 달성하였다. 또한 감각적 대비 강화 기술(Perceptual Contrast Stretching)과 결합할 경우, SEMamba는 새로운 최고 성능(PESQ 3.69)을 기록하며 기존 최고 수준을 초월하였다.