TF-Locoformer: Transformer mit lokalem Modellierung durch Faltung für Sprachtrennung und -verbesserung

Zeit-Frequenz-Domänen (TF) Dual-Path-Modelle erreichen eine hochwertige Sprachtrennung. Während einige frühere state-of-the-art (SoTA) Modelle auf rekurrente neuronale Netze (RNNs) angewiesen sind, bedeutet diese Abhängigkeit, dass sie die Parallelisierbarkeit, Skalierbarkeit und Vielseitigkeit von Transformer-Blöcken nicht besitzen. Angesichts des umfassenden Erfolgs reiner Transformer-basierter Architekturen in anderen Bereichen konzentrieren wir uns in dieser Arbeit darauf, den RNN aus TF-Domänen Dual-Path-Modellen zu entfernen, während wir gleichzeitig die SoTA-Leistung beibehalten. Diese Arbeit stellt das TF-Locoformer vor, ein Transformer-basiertes Modell mit lokaler Modellierung durch Faltung (LOcal-modeling by COnvolution). Das Modell verwendet Feed-Forward-Netzwerke (FFNs) mit Faltungsschichten anstelle von linearen Schichten, um lokale Informationen zu erfassen und die Selbst-Aufmerksamkeit auf die Erfassung globaler Muster zu fokussieren. Wir platzieren zwei solche FFNs vor und nach der Selbst-Aufmerksamkeit, um die Fähigkeit zur lokalen Modellierung zu verbessern. Darüber hinaus führen wir eine neuartige Normierung für TF-Domänen Dual-Path-Modelle ein. Experimente mit Datensätzen für Trennung und Verbesserung zeigen, dass das vorgeschlagene Modell in mehreren Benchmarks die SoTA-Leistung erreicht oder übertreffen kann, ohne RNN-Architektur zu verwenden.