Command Palette
Search for a command to run...
Attention ist Alles, was Sie in der Sprachtrennung benötigen
Attention ist Alles, was Sie in der Sprachtrennung benötigen
Cem Subakan Mirco Ravanelli Samuele Cornell Mirko Bronzi Jianyuan Zhong
Zusammenfassung
Recurrent Neural Networks (RNNs) waren lange die dominierende Architektur im Bereich der Sequenz-zu-Sequenz-Lernverfahren. RNNs sind jedoch inhärent sequenzielle Modelle, die eine Parallelisierung ihrer Berechnungen nicht zulassen. Transformers etablieren sich zunehmend als natürliche Alternative zu herkömmlichen RNNs, indem sie rekursive Berechnungen durch ein Multi-Head-Attention-Modul ersetzen. In diesem Paper stellen wir den SepFormer vor, ein neuartiges, RNN-freies, auf Transformers basierendes neuronales Netzwerk für die Sprachtrennung. Der SepFormer erlernt sowohl kurz- als auch langfristige Abhängigkeiten mittels eines mehrskaligen Ansatzes, der Transformers nutzt. Das vorgeschlagene Modell erreicht eine state-of-the-art (SOTA)-Leistung auf den Standard-Datensätzen WSJ0-2mix und WSJ0-3mix. Es erzielt eine SI-SNRi von 22,3 dB auf WSJ0-2mix und eine SI-SNRi von 19,5 dB auf WSJ0-3mix. Der SepFormer übernimmt die Vorteile der Parallelisierung von Transformers und zeigt selbst bei einer Reduktion der kodierten Darstellung um den Faktor 8 eine konkurrenzfähige Leistung. Er ist somit erheblich schneller und weniger speicherintensiv als die neuesten Systeme für Sprachtrennung mit vergleichbarer Leistungsfähigkeit.