DeepFilterNet: auf Wahrnehmung basierende Echtzeit-Sprachverbesserung

Mehrfeldalgorithmen zur Sprachverbesserung für Einzelspuraufnahmen können kurzfristige Korrelationen innerhalb des Sprachsignals nutzen. Deep Filtering (DF) wurde vorgeschlagen, um direkt einen komplexen Filter im Frequenzbereich zu schätzen, um diese Korrelationen auszunutzen. In dieser Arbeit präsentieren wir eine Echtzeit-Demo zur Sprachverbesserung mithilfe von DeepFilterNet. Die Effizienz von DeepFilterNet beruht auf der Ausnutzung von Domänenwissen über die Sprachproduktion und die psychoakustische Wahrnehmung. Unser Modell erreicht Leistungen, die mit den derzeitigen State-of-the-Art-Benchmark-Werten für Sprachverbesserung konkurrieren, und erzielt dabei einen Echtzeitfaktor von 0,19 auf einem einthreadigen Notebook-CPU. Das Framework sowie vortrainierte Gewichte wurden unter einer Open-Source-Lizenz veröffentlicht.