HyperAIHyperAI
vor 2 Monaten

Verbesserte Sprachverbesserung mit dem Wave-U-Net

Craig Macartney; Tillman Weyde
Verbesserte Sprachverbesserung mit dem Wave-U-Net
Abstract

Wir untersuchen die Verwendung der Wave-U-Net-Architektur für die Sprachverbesserung, ein Modell, das von Stoller et al. zur Trennung von Musikvokalen und Begleitung eingeführt wurde. Diese Methode des End-to-End-Lernens für die Audioquellentrennung arbeitet direkt im Zeitbereich, was die integrierte Modellierung von Phaseninformationen ermöglicht und es in der Lage sein lässt, große zeitliche Kontexte zu berücksichtigen. Unsere Experimente zeigen, dass die vorgeschlagene Methode mehrere Metriken, nämlich PESQ, CSIG, CBAK, COVL und SSNR, im Vergleich zum Stand der Technik bei der Aufgabe der Sprachverbesserung auf dem Voice Bank-Korpus (VCTK)-Datensatz verbessert. Wir stellen fest, dass eine reduzierte Anzahl von versteckten Schichten für die Sprachverbesserung ausreichend ist im Vergleich zum ursprünglichen System, das für die Trennung von Gesangsvokalen in Musik entwickelt wurde. Wir sehen dieses vorläufige Ergebnis als ermutigendes Signal, um die Sprachverbesserung im Zeitbereich weiter zu erforschen, sowohl als eigenständiges Ziel als auch als Vorverarbeitungsschritt für Spracherkennungssysteme.

Verbesserte Sprachverbesserung mit dem Wave-U-Net | Neueste Forschungsarbeiten | HyperAI