HyperAIHyperAI

Command Palette

Search for a command to run...

Untersuchung von Selbst-Attention-Mechanismen für die Sprachtrennung

Cem Subakan Mirco Ravanelli Samuele Cornell Francois Grondin Mirko Bronzi

Zusammenfassung

Transformers haben bemerkenswerte Fortschritte im Bereich des tiefen Lernens ermöglicht. Sie übertrifft in vielen Aufgaben häufig rekurrente und konvolutionale Modelle, wobei sie gleichzeitig die Vorteile der parallelen Verarbeitung nutzen. Kürzlich haben wir den SepFormer vorgestellt, der auf den WSJ0-2/3 Mix-Datensätzen eine state-of-the-art-Leistung in der Sprachtrennung erzielt. In diesem Artikel untersuchen wir Transformers für die Sprachtrennung eingehend. Insbesondere erweitern wir unsere vorherigen Erkenntnisse zum SepFormer durch Ergebnisse auf anspruchsvolleren, rauschbehafteten und halligen Datensätzen wie LibriMix, WHAM! und WHAMR!. Zudem erweitern wir unser Modell auf die Sprachverbesserung und liefern experimentelle Belege für Aufgaben der Rauschunterdrückung und Hallreduktion. Schließlich untersuchen wir erstmals in der Sprachtrennung effiziente Selbst-Attention-Mechanismen wie Linformer, Longformer und Reformer. Wir stellen fest, dass diese Mechanismen die Speicheranforderungen erheblich reduzieren. So zeigen wir beispielsweise, dass die auf Reformer basierende Aufmerksamkeit auf dem WSJ0-2Mix-Datensatz die Leistung des etablierten Conv-TasNet-Modells übertrifft, gleichzeitig jedoch schneller bei der Inferenz ist und hinsichtlich des Speicherverbrauchs vergleichbar ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp