HyperAIHyperAI
vor 2 Monaten

xLSTM-SENet: xLSTM für die Sprachverbesserung bei Einzelsignalen

Kühne, Nikolai Lund ; Østergaard, Jan ; Jensen, Jesper ; Tan, Zheng-Hua
xLSTM-SENet: xLSTM für die Sprachverbesserung bei Einzelsignalen
Abstract

Während aufmerksamkeitsbasierte Architekturen wie Conformers in der Sprachverbesserung hervorragende Leistungen erzielen, stehen sie vor Herausforderungen wie der Skalierbarkeit im Bezug zur Länge der Eingabe-Sequenz. Im Gegensatz dazu bietet die kürzlich vorgeschlagene Extended Long Short-Term Memory (xLSTM)-Architektur lineare Skalierbarkeit. Allerdings sind xLSTM-basierte Modelle bisher in der Sprachverbesserung unerforscht geblieben. In dieser Arbeit stellen wir xLSTM-SENet vor, das erste xLSTM-basierte System für die Verbesserung von mono-Sprachkanälen. Eine vergleichende Analyse zeigt, dass sowohl xLSTM- als auch insbesondere LSTM-basierte Modelle den neuesten Mamba- und Conformer-basierten Systemen bei verschiedenen Modellgrößen in der Sprachverbesserung auf dem VoiceBank+Demand-Datensatz gleichkommen oder sogar überlegen sein können. Durch Ausfallstudien (Ablation studies) identifizieren wir entscheidende architektonische Gestaltungsoptionen wie exponentielles Gating und Bidirektionalität, die zu seiner Effektivität beitragen. Unser bestes xLSTM-basiertes Modell, xLSTM-SENet2, übertrifft die neuesten Mamba- und Conformer-basierten Systeme ähnlicher Komplexität auf dem Voicebank+DEMAND-Datensatz.