HyperAIHyperAI
vor 3 Monaten

FullSubNet: Ein Full-Band- und Sub-Band-Fusionsmodell für die Echtzeit-Sprachverbesserung mit einzelnen Kanälen

Xiang Hao, Xiangdong Su, Radu Horaud, Xiaofei Li
FullSubNet: Ein Full-Band- und Sub-Band-Fusionsmodell für die Echtzeit-Sprachverbesserung mit einzelnen Kanälen
Abstract

Diese Arbeit stellt ein vollband- und unterband-basiertes Fusionsmodell namens FullSubNet für die Einkanal-Sprachverbesserung in Echtzeit vor. Unter „vollband“ und „unterband“ versteht man Modelle, die jeweils vollbandige und unterbandige verrauschte spektrale Merkmale als Eingabe verwenden und entsprechend vollbandige und unterbandige Sprachziele ausgeben. Das Unterbandmodell verarbeitet jede Frequenz unabhängig voneinander; seine Eingabe besteht aus einer zentralen Frequenz und mehreren benachbarten, kontextualisierten Frequenzen, während die Ausgabe die Vorhersage des sauberen Sprachziels für die entsprechende Frequenz darstellt. Beide Modelltypen weisen unterschiedliche Eigenschaften auf: Das Vollbandmodell kann den globalen spektralen Kontext sowie langreichweitige, interbandabhängige Beziehungen erfassen. Es besitzt jedoch eine geringe Fähigkeit, Signalstationarität zu modellieren und lokale spektrale Muster zu erfassen. Das Unterbandmodell zeigt genau das Gegenteil. In dem vorgeschlagenen FullSubNet verbinden wir ein reines Vollbandmodell und ein reines Unterbandmodell sequentiell und nutzen eine praktikable gemeinsame Trainingsstrategie, um die Vorteile beider Modelltypen zu integrieren. Wir haben Experimente am DNS-Challenge-Datensatz (INTERSPEECH 2020) durchgeführt, um die vorgeschlagene Methode zu evaluieren. Die experimentellen Ergebnisse zeigen, dass vollbandige und unterbandige Informationen sich ergänzen und dass FullSubNet diese Informationen effektiv integrieren kann. Darüber hinaus übertrifft die Leistung von FullSubNet auch die der führenden Methoden im DNS-Challenge (INTERSPEECH 2020).