HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserte Sprachverbesserung mit dem Wave-U-Net

Craig Macartney; Tillman Weyde

Zusammenfassung

Wir untersuchen die Verwendung der Wave-U-Net-Architektur für die Sprachverbesserung, ein Modell, das von Stoller et al. zur Trennung von Musikvokalen und Begleitung eingeführt wurde. Diese Methode des End-to-End-Lernens für die Audioquellentrennung arbeitet direkt im Zeitbereich, was die integrierte Modellierung von Phaseninformationen ermöglicht und es in der Lage sein lässt, große zeitliche Kontexte zu berücksichtigen. Unsere Experimente zeigen, dass die vorgeschlagene Methode mehrere Metriken, nämlich PESQ, CSIG, CBAK, COVL und SSNR, im Vergleich zum Stand der Technik bei der Aufgabe der Sprachverbesserung auf dem Voice Bank-Korpus (VCTK)-Datensatz verbessert. Wir stellen fest, dass eine reduzierte Anzahl von versteckten Schichten für die Sprachverbesserung ausreichend ist im Vergleich zum ursprünglichen System, das für die Trennung von Gesangsvokalen in Musik entwickelt wurde. Wir sehen dieses vorläufige Ergebnis als ermutigendes Signal, um die Sprachverbesserung im Zeitbereich weiter zu erforschen, sowohl als eigenständiges Ziel als auch als Vorverarbeitungsschritt für Spracherkennungssysteme.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp