xLSTM-SENet: xLSTM für die Sprachverbesserung bei Einzelsignalen

Während aufmerksamkeitsbasierte Architekturen wie Conformers in der Sprachverbesserung hervorragende Leistungen erzielen, stehen sie vor Herausforderungen wie der Skalierbarkeit im Bezug zur Länge der Eingabe-Sequenz. Im Gegensatz dazu bietet die kürzlich vorgeschlagene Extended Long Short-Term Memory (xLSTM)-Architektur lineare Skalierbarkeit. Allerdings sind xLSTM-basierte Modelle bisher in der Sprachverbesserung unerforscht geblieben. In dieser Arbeit stellen wir xLSTM-SENet vor, das erste xLSTM-basierte System für die Verbesserung von mono-Sprachkanälen. Eine vergleichende Analyse zeigt, dass sowohl xLSTM- als auch insbesondere LSTM-basierte Modelle den neuesten Mamba- und Conformer-basierten Systemen bei verschiedenen Modellgrößen in der Sprachverbesserung auf dem VoiceBank+Demand-Datensatz gleichkommen oder sogar überlegen sein können. Durch Ausfallstudien (Ablation studies) identifizieren wir entscheidende architektonische Gestaltungsoptionen wie exponentielles Gating und Bidirektionalität, die zu seiner Effektivität beitragen. Unser bestes xLSTM-basiertes Modell, xLSTM-SENet2, übertrifft die neuesten Mamba- und Conformer-basierten Systeme ähnlicher Komplexität auf dem Voicebank+DEMAND-Datensatz.