HyperAIHyperAI

Command Palette

Search for a command to run...

Schrödinger-Brücke für generatives Sprachverbesserung

Ante Jukić Roman Korostik Jagadeesh Balam Boris Ginsburg

Zusammenfassung

Dieses Papier schlägt ein generatives Sprachverbesserungsmodell auf Basis der Schrödinger-Brücke (SB) vor. Das vorgeschlagene Modell nutzt eine handhabbare SB, um einen Daten-zu-Daten-Prozess zwischen der Verteilung von sauberem Sprachsignal und der Verteilung des beobachteten rauschigen Sprachsignals zu formulieren. Das Modell wird mit einem Datenvorhersageverlust trainiert, wobei das Ziel die Wiederherstellung der komplexwertigen Koeffizienten des sauberen Sprachsignals ist. Ein zusätzlicher Zeitbereichsverlust wird verwendet, um die Trainierung des Modells zu verbessern. Die Effektivität des vorgeschlagenen SB-basierten Modells wird in zwei verschiedenen Sprachverbesserungsaufgaben evaluiert: Spracherkennung und Entverhallung. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene SB-basierte Modell in Bezug auf sprachqualitative Metriken und ASR-Leistung besser abschneidet als diffusionsbasierte Modelle, z.B. durch eine relative Reduzierung der Wortfehlerrate von 20 % bei der Rauschunterdrückung und 6 % bei der Entverhallung im Vergleich zum besten Basismodell. Das vorgeschlagene Modell zeigt auch eine verbesserte Effizienz, indem es für dieselbe Anzahl von Sampling-Schritten eine bessere Qualität als die Basismodelle erzielt und dabei die Rechenkosten reduziert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Schrödinger-Brücke für generatives Sprachverbesserung | Paper | HyperAI