vor 17 Tagen

Untersuchung von Selbst-Attention-Mechanismen für die Sprachtrennung

Cem Subakan, Mirco Ravanelli, Samuele Cornell, Francois Grondin, Mirko Bronzi

Abstract

Transformers haben bemerkenswerte Fortschritte im Bereich des tiefen Lernens ermöglicht. Sie übertrifft in vielen Aufgaben häufig rekurrente und konvolutionale Modelle, wobei sie gleichzeitig die Vorteile der parallelen Verarbeitung nutzen. Kürzlich haben wir den SepFormer vorgestellt, der auf den WSJ0-2/3 Mix-Datensätzen eine state-of-the-art-Leistung in der Sprachtrennung erzielt. In diesem Artikel untersuchen wir Transformers für die Sprachtrennung eingehend. Insbesondere erweitern wir unsere vorherigen Erkenntnisse zum SepFormer durch Ergebnisse auf anspruchsvolleren, rauschbehafteten und halligen Datensätzen wie LibriMix, WHAM! und WHAMR!. Zudem erweitern wir unser Modell auf die Sprachverbesserung und liefern experimentelle Belege für Aufgaben der Rauschunterdrückung und Hallreduktion. Schließlich untersuchen wir erstmals in der Sprachtrennung effiziente Selbst-Attention-Mechanismen wie Linformer, Longformer und Reformer. Wir stellen fest, dass diese Mechanismen die Speicheranforderungen erheblich reduzieren. So zeigen wir beispielsweise, dass die auf Reformer basierende Aufmerksamkeit auf dem WSJ0-2Mix-Datensatz die Leistung des etablierten Conv-TasNet-Modells übertrifft, gleichzeitig jedoch schneller bei der Inferenz ist und hinsichtlich des Speicherverbrauchs vergleichbar ist.