HyperAIHyperAI
vor 3 Monaten

Sprachrauschunterdrückung im Wellenformbereich mit Selbst-Attention

Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro
Sprachrauschunterdrückung im Wellenformbereich mit Selbst-Attention
Abstract

In dieser Arbeit präsentieren wir CleanUNet, ein kausales Sprachentrauschungsmodell für Rohwellenformen. Das vorgeschlagene Modell basiert auf einer Encoder-Decoder-Architektur, die mehrere Self-Attention-Blöcke integriert, um die Darstellungen im Bottleneck zu verfeinern – ein entscheidender Faktor für hervorragende Ergebnisse. Das Modell wird durch eine Reihe von Verlustfunktionen optimiert, die sowohl auf der Wellenform als auch auf mehreren Spektralauflösungen definiert sind. Die vorgeschlagene Methode übertrifft die derzeitigen State-of-the-Art-Modelle hinsichtlich der Qualität der entrauschten Sprache, wie verschiedene objektive und subjektive Bewertungsmaße zeigen. Wir stellen unseren Code und die Modelle unter https://github.com/nvidia/cleanunet zur Verfügung.