HyperAIHyperAI

Command Palette

Search for a command to run...

TF-Locoformer: Transformer mit lokalem Modellierung durch Faltung für Sprachtrennung und -verbesserung

Kohei Saijo Gordon Wichern François G. Germain Zexu Pan Jonathan Le Roux

Zusammenfassung

Zeit-Frequenz-Domänen (TF) Dual-Path-Modelle erreichen eine hochwertige Sprachtrennung. Während einige frühere state-of-the-art (SoTA) Modelle auf rekurrente neuronale Netze (RNNs) angewiesen sind, bedeutet diese Abhängigkeit, dass sie die Parallelisierbarkeit, Skalierbarkeit und Vielseitigkeit von Transformer-Blöcken nicht besitzen. Angesichts des umfassenden Erfolgs reiner Transformer-basierter Architekturen in anderen Bereichen konzentrieren wir uns in dieser Arbeit darauf, den RNN aus TF-Domänen Dual-Path-Modellen zu entfernen, während wir gleichzeitig die SoTA-Leistung beibehalten. Diese Arbeit stellt das TF-Locoformer vor, ein Transformer-basiertes Modell mit lokaler Modellierung durch Faltung (LOcal-modeling by COnvolution). Das Modell verwendet Feed-Forward-Netzwerke (FFNs) mit Faltungsschichten anstelle von linearen Schichten, um lokale Informationen zu erfassen und die Selbst-Aufmerksamkeit auf die Erfassung globaler Muster zu fokussieren. Wir platzieren zwei solche FFNs vor und nach der Selbst-Aufmerksamkeit, um die Fähigkeit zur lokalen Modellierung zu verbessern. Darüber hinaus führen wir eine neuartige Normierung für TF-Domänen Dual-Path-Modelle ein. Experimente mit Datensätzen für Trennung und Verbesserung zeigen, dass das vorgeschlagene Modell in mehreren Benchmarks die SoTA-Leistung erreicht oder übertreffen kann, ohne RNN-Architektur zu verwenden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp