HyperAIHyperAI

Command Palette

Search for a command to run...

DeepFilterNet: auf Wahrnehmung basierende Echtzeit-Sprachverbesserung

Hendrik Schröter Tobias Rosenkranz Alberto N. Escalante-B. Andreas Maier

Zusammenfassung

Mehrfeldalgorithmen zur Sprachverbesserung für Einzelspuraufnahmen können kurzfristige Korrelationen innerhalb des Sprachsignals nutzen. Deep Filtering (DF) wurde vorgeschlagen, um direkt einen komplexen Filter im Frequenzbereich zu schätzen, um diese Korrelationen auszunutzen. In dieser Arbeit präsentieren wir eine Echtzeit-Demo zur Sprachverbesserung mithilfe von DeepFilterNet. Die Effizienz von DeepFilterNet beruht auf der Ausnutzung von Domänenwissen über die Sprachproduktion und die psychoakustische Wahrnehmung. Unser Modell erreicht Leistungen, die mit den derzeitigen State-of-the-Art-Benchmark-Werten für Sprachverbesserung konkurrieren, und erzielt dabei einen Echtzeitfaktor von 0,19 auf einem einthreadigen Notebook-CPU. Das Framework sowie vortrainierte Gewichte wurden unter einer Open-Source-Lizenz veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp