HyperAIHyperAI

Command Palette

Search for a command to run...

Zur Zeitdomänen-Conformer-Modelle für die monaurale Sprachtrennung in geräuschbehafteten, nachhallbehafteten akustischen Umgebungen

William Ravenscroft Stefan Goetze Thomas Hain

Zusammenfassung

Die Sprachtrennung bleibt ein zentrales Thema für Forscher in der Mehrsprachensystemtechnologie. Konvolutionserweiterte Transformer (Conformers) haben sich bei zahlreichen Sprachverarbeitungsaufgaben bewährt, sind jedoch für die Sprachtrennung bisher unterforscht worden. Die meisten jüngsten State-of-the-Art (SOTA)-Trennmodelle basieren auf Zeitbereichs-Audio-Trennnetzwerken (TasNets). Eine Reihe erfolgreicher Modelle nutzt hierbei Dual-Path-(DP)-Netzwerke, die lokale und globale Informationen sequenziell verarbeiten. Time Domain Conformers (TD-Conformers) stellen eine Analogie zum DP-Ansatz dar, da auch sie lokale und globale Kontextinformationen sequenziell verarbeiten, jedoch eine andere zeitliche Komplexitätsfunktion aufweisen. Es wird gezeigt, dass Conformers bei realistisch kürzeren Signalen, unter Kontrolle der Merkmalsdimension, effizienter sind. Zur weiteren Steigerung der Recheneffizienz werden Subsampling-Schichten vorgeschlagen. Das beste TD-Conformer erreicht auf den Benchmarks WHAMR und WSJ0-2Mix jeweils eine Verbesserung des SISDR um 14,6 dB und 21,2 dB.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zur Zeitdomänen-Conformer-Modelle für die monaurale Sprachtrennung in geräuschbehafteten, nachhallbehafteten akustischen Umgebungen | Paper | HyperAI