HyperAIHyperAI

Command Palette

Search for a command to run...

Untersuchung von Trainingszielen für generative Sprachverbesserung

Julius Richter Danilo de Oliveira Timo Gerkmann

Zusammenfassung

Generative Speech Enhancement hat in letzter Zeit vielversprechende Fortschritte bei der Verbesserung der Sprachqualität in lautstarken Umgebungen gezeigt. Mehrere auf Diffusion basierende Frameworks existieren, wobei jeder unterschiedliche Trainingsziele und Lernstrategien verwendet. In diesem Artikel zielen wir darauf ab, die Unterschiede zwischen diesen Frameworks zu erklären, indem wir unsere Untersuchung auf score-basierte generative Modelle und die Schrödinger-Brücke konzentrieren. Wir führen eine Reihe umfassender Experimente durch, um deren Leistung zu vergleichen und unterschiedliche Trainingsverhalten aufzuzeigen. Darüber hinaus schlagen wir eine neuartige perceptuelle Verlustfunktion vor, die speziell für das Schrödinger-Brücke-Framework entwickelt wurde, und zeigen eine verbesserte Leistung sowie eine höhere perceptuelle Qualität der verbesserten Sprachsignale. Alle experimentellen Codes und vortrainierten Modelle sind öffentlich verfügbar, um weitere Forschung und Entwicklung in diesem Bereich zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp