HyperAIHyperAI
vor 2 Monaten

Aussprache-gewichtete Multi-Dilatations-Temporale Faltungsnetze für die Dereverberation von einkanaligem Sprachsignal

William Ravenscroft; Stefan Goetze; Thomas Hain
Aussprache-gewichtete Multi-Dilatations-Temporale Faltungsnetze für die Dereverberation von einkanaligem Sprachsignal
Abstract

Die Entfernung von Echo (Dereverberation) ist eine wichtige Phase in vielen Anwendungen der Sprachtechnologie. Die jüngsten Arbeiten in diesem Bereich werden hauptsächlich von tiefen neuronalen Netzwerken dominiert. Zeitliche Faltungsnetze (Temporal Convolutional Networks, TCNs) sind Deep-Learning-Modelle, die für die Sequenzmodellierung bei der Dereverberation von Sprache vorgeschlagen wurden. In dieser Arbeit wird ein gewichteter Multi-Dilatations-Tiefe-Faltung (weighted multi-dilation depthwise-separable convolution) vorgeschlagen, um die standardmäßigen Tiefe-Faltungen in TCN-Modellen zu ersetzen. Diese vorgeschlagene Faltung ermöglicht es dem TCN, sich dynamisch auf mehr oder weniger lokale Informationen in seinem Rezeptivfeld bei jedem Faltungsblock im Netzwerk zu konzentrieren. Es wird gezeigt, dass dieses gewichtete Multi-Dilatations-Zeitliche Faltungsnetz (Weighted Multi-Dilation Temporal Convolutional Network, WD-TCN) konsistent bessere Ergebnisse als das TCN bei verschiedenen Modellkonfigurationen erzielt und dass die Verwendung des WD-TCN-Modells eine effizientere Methode zur Verbesserung der Modelleistung ist als die Erhöhung der Anzahl der Faltungsblöcke. Der größte Leistungsanstieg gegenüber dem Basismodell TCN beträgt 0,55 dB Skaleninvariante Signal-zu-Störverhältnis (Scale-Invariant Signal-to-Distortion Ratio, SISDR), und das am besten performende WD-TCN-Modell erreicht 12,26 dB SISDR auf dem WHAMR-Datensatz.

Aussprache-gewichtete Multi-Dilatations-Temporale Faltungsnetze für die Dereverberation von einkanaligem Sprachsignal | Neueste Forschungsarbeiten | HyperAI