Deformierbare temporale Faltungsnetze für die Trennung von monaularem rauschbehaftetem hallenden Sprachsignalen

Sprachtrennungsmodelle werden in vielen Anwendungen der Sprachverarbeitung verwendet, um einzelne Sprecher zu isolieren. Tiefen Lernmodelle haben sich als führend erwiesen und auf mehreren Sprachtrennungsbenchmarks state-of-the-art (SOTA) Ergebnisse erzielt. Eine solche Klasse von Modellen, die als zeitliche Faltungsnetze (TCNs) bekannt sind, hat vielversprechende Ergebnisse bei Aufgaben der Sprachtrennung gezeigt. Ein Nachteil dieser Modelle ist jedoch ihr fester Rezeptivbereich (RB). Neueste Forschungen zur Entfernung von Verhallen aus Sprachsignalen haben gezeigt, dass der optimale RB eines TCNs mit den Verhalleneigenschaften des Sprachsignals variiert. In dieser Arbeit wird deformierbare Faltung vorgeschlagen, um TCN-Modellen dynamische RBs zu ermöglichen, die sich an verschiedene Verhallenzeiten anpassen können, insbesondere für die Trennung von verhallten Sprachsignalen. Die vorgeschlagenen Modelle erreichen eine durchschnittliche Verbesserung des skaleninvarianten Signal-zu-Störverhältnisses (SISDR) von 11,1 dB im Vergleich zum Eingangssignal auf dem WHAMR-Benchmark. Ein relativ kleines deformierbares TCN-Modell mit 1,3 Millionen Parametern wird vorgestellt, das vergleichbare Trennleistungen wie größere und rechnerisch komplexere Modelle bietet.