HyperAIHyperAI
vor 2 Monaten

Schrödinger-Brücke für generatives Sprachverbesserung

Ante Jukić; Roman Korostik; Jagadeesh Balam; Boris Ginsburg
Schrödinger-Brücke für generatives Sprachverbesserung
Abstract

Dieses Papier schlägt ein generatives Sprachverbesserungsmodell auf Basis der Schrödinger-Brücke (SB) vor. Das vorgeschlagene Modell nutzt eine handhabbare SB, um einen Daten-zu-Daten-Prozess zwischen der Verteilung von sauberem Sprachsignal und der Verteilung des beobachteten rauschigen Sprachsignals zu formulieren. Das Modell wird mit einem Datenvorhersageverlust trainiert, wobei das Ziel die Wiederherstellung der komplexwertigen Koeffizienten des sauberen Sprachsignals ist. Ein zusätzlicher Zeitbereichsverlust wird verwendet, um die Trainierung des Modells zu verbessern. Die Effektivität des vorgeschlagenen SB-basierten Modells wird in zwei verschiedenen Sprachverbesserungsaufgaben evaluiert: Spracherkennung und Entverhallung. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene SB-basierte Modell in Bezug auf sprachqualitative Metriken und ASR-Leistung besser abschneidet als diffusionsbasierte Modelle, z.B. durch eine relative Reduzierung der Wortfehlerrate von 20 % bei der Rauschunterdrückung und 6 % bei der Entverhallung im Vergleich zum besten Basismodell. Das vorgeschlagene Modell zeigt auch eine verbesserte Effizienz, indem es für dieselbe Anzahl von Sampling-Schritten eine bessere Qualität als die Basismodelle erzielt und dabei die Rechenkosten reduziert.