HyperAIHyperAI
vor 15 Tagen

Zur Zeitdomänen-Conformer-Modelle für die monaurale Sprachtrennung in geräuschbehafteten, nachhallbehafteten akustischen Umgebungen

William Ravenscroft, Stefan Goetze, Thomas Hain
Zur Zeitdomänen-Conformer-Modelle für die monaurale Sprachtrennung in geräuschbehafteten, nachhallbehafteten akustischen Umgebungen
Abstract

Die Sprachtrennung bleibt ein zentrales Thema für Forscher in der Mehrsprachensystemtechnologie. Konvolutionserweiterte Transformer (Conformers) haben sich bei zahlreichen Sprachverarbeitungsaufgaben bewährt, sind jedoch für die Sprachtrennung bisher unterforscht worden. Die meisten jüngsten State-of-the-Art (SOTA)-Trennmodelle basieren auf Zeitbereichs-Audio-Trennnetzwerken (TasNets). Eine Reihe erfolgreicher Modelle nutzt hierbei Dual-Path-(DP)-Netzwerke, die lokale und globale Informationen sequenziell verarbeiten. Time Domain Conformers (TD-Conformers) stellen eine Analogie zum DP-Ansatz dar, da auch sie lokale und globale Kontextinformationen sequenziell verarbeiten, jedoch eine andere zeitliche Komplexitätsfunktion aufweisen. Es wird gezeigt, dass Conformers bei realistisch kürzeren Signalen, unter Kontrolle der Merkmalsdimension, effizienter sind. Zur weiteren Steigerung der Recheneffizienz werden Subsampling-Schichten vorgeschlagen. Das beste TD-Conformer erreicht auf den Benchmarks WHAMR und WSJ0-2Mix jeweils eine Verbesserung des SISDR um 14,6 dB und 21,2 dB.

Zur Zeitdomänen-Conformer-Modelle für die monaurale Sprachtrennung in geräuschbehafteten, nachhallbehafteten akustischen Umgebungen | Neueste Forschungsarbeiten | HyperAI