HyperAIHyperAI

Command Palette

Search for a command to run...

xLSTM-SENet: xLSTM für die Sprachverbesserung bei Einzelsignalen

Nikolai Lund Kühne Jan Østergaard Jesper Jensen Zheng-Hua Tan

Zusammenfassung

Während aufmerksamkeitsbasierte Architekturen wie Conformers in der Sprachverbesserung hervorragende Leistungen erzielen, stehen sie vor Herausforderungen wie der Skalierbarkeit im Bezug zur Länge der Eingabe-Sequenz. Im Gegensatz dazu bietet die kürzlich vorgeschlagene Extended Long Short-Term Memory (xLSTM)-Architektur lineare Skalierbarkeit. Allerdings sind xLSTM-basierte Modelle bisher in der Sprachverbesserung unerforscht geblieben. In dieser Arbeit stellen wir xLSTM-SENet vor, das erste xLSTM-basierte System für die Verbesserung von mono-Sprachkanälen. Eine vergleichende Analyse zeigt, dass sowohl xLSTM- als auch insbesondere LSTM-basierte Modelle den neuesten Mamba- und Conformer-basierten Systemen bei verschiedenen Modellgrößen in der Sprachverbesserung auf dem VoiceBank+Demand-Datensatz gleichkommen oder sogar überlegen sein können. Durch Ausfallstudien (Ablation studies) identifizieren wir entscheidende architektonische Gestaltungsoptionen wie exponentielles Gating und Bidirektionalität, die zu seiner Effektivität beitragen. Unser bestes xLSTM-basiertes Modell, xLSTM-SENet2, übertrifft die neuesten Mamba- und Conformer-basierten Systeme ähnlicher Komplexität auf dem Voicebank+DEMAND-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp