HyperAIHyperAI
vor 17 Tagen

Eine Untersuchung zur Integration von Mamba für die Sprachverbesserung

Rong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Szu-Wei Fu, Yu Tsao
Eine Untersuchung zur Integration von Mamba für die Sprachverbesserung
Abstract

Diese Arbeit zielt darauf ab, ein skalierbares Zustandsraummodell (State-Space Model, SSM), namens Mamba, für die Sprachverbesserung (Speech Enhancement, SE) zu untersuchen. Wir nutzen ein auf Mamba basierendes Regressionsmodell, um Sprachsignale zu charakterisieren, und bauen darauf ein SE-System auf, das als SEMamba bezeichnet wird. Die Eigenschaften von Mamba werden durch dessen Integration als zentrales Modell in sowohl grundlegenden als auch fortgeschrittenen SE-Systemen erforscht, wobei sowohl signalbasierte Abstandsmetriken als auch metrikorientierte Verlustfunktionen eingesetzt werden. SEMamba erzielt vielversprechende Ergebnisse und erreicht auf dem VoiceBank-DEMAND-Datensatz einen PESQ-Wert von 3,55. Bei Kombination mit der perceptiven Kontraststreckungstechnik wird ein neuer State-of-the-Art-PESQ-Wert von 3,69 erzielt.