HyperAIHyperAI

Command Palette

Search for a command to run...

Deformierbare temporale Faltungsnetze für die Trennung von monaularem rauschbehaftetem hallenden Sprachsignalen

William Ravenscroft Stefan Goetze Thomas Hain

Zusammenfassung

Sprachtrennungsmodelle werden in vielen Anwendungen der Sprachverarbeitung verwendet, um einzelne Sprecher zu isolieren. Tiefen Lernmodelle haben sich als führend erwiesen und auf mehreren Sprachtrennungsbenchmarks state-of-the-art (SOTA) Ergebnisse erzielt. Eine solche Klasse von Modellen, die als zeitliche Faltungsnetze (TCNs) bekannt sind, hat vielversprechende Ergebnisse bei Aufgaben der Sprachtrennung gezeigt. Ein Nachteil dieser Modelle ist jedoch ihr fester Rezeptivbereich (RB). Neueste Forschungen zur Entfernung von Verhallen aus Sprachsignalen haben gezeigt, dass der optimale RB eines TCNs mit den Verhalleneigenschaften des Sprachsignals variiert. In dieser Arbeit wird deformierbare Faltung vorgeschlagen, um TCN-Modellen dynamische RBs zu ermöglichen, die sich an verschiedene Verhallenzeiten anpassen können, insbesondere für die Trennung von verhallten Sprachsignalen. Die vorgeschlagenen Modelle erreichen eine durchschnittliche Verbesserung des skaleninvarianten Signal-zu-Störverhältnisses (SISDR) von 11,1 dB im Vergleich zum Eingangssignal auf dem WHAMR-Benchmark. Ein relativ kleines deformierbares TCN-Modell mit 1,3 Millionen Parametern wird vorgestellt, das vergleichbare Trennleistungen wie größere und rechnerisch komplexere Modelle bietet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp