HyperAIHyperAI

Command Palette

Search for a command to run...

Attention ist Alles, was Sie in der Sprachtrennung benötigen

Cem Subakan Mirco Ravanelli Samuele Cornell Mirko Bronzi Jianyuan Zhong

Zusammenfassung

Recurrent Neural Networks (RNNs) waren lange die dominierende Architektur im Bereich der Sequenz-zu-Sequenz-Lernverfahren. RNNs sind jedoch inhärent sequenzielle Modelle, die eine Parallelisierung ihrer Berechnungen nicht zulassen. Transformers etablieren sich zunehmend als natürliche Alternative zu herkömmlichen RNNs, indem sie rekursive Berechnungen durch ein Multi-Head-Attention-Modul ersetzen. In diesem Paper stellen wir den SepFormer vor, ein neuartiges, RNN-freies, auf Transformers basierendes neuronales Netzwerk für die Sprachtrennung. Der SepFormer erlernt sowohl kurz- als auch langfristige Abhängigkeiten mittels eines mehrskaligen Ansatzes, der Transformers nutzt. Das vorgeschlagene Modell erreicht eine state-of-the-art (SOTA)-Leistung auf den Standard-Datensätzen WSJ0-2mix und WSJ0-3mix. Es erzielt eine SI-SNRi von 22,3 dB auf WSJ0-2mix und eine SI-SNRi von 19,5 dB auf WSJ0-3mix. Der SepFormer übernimmt die Vorteile der Parallelisierung von Transformers und zeigt selbst bei einer Reduktion der kodierten Darstellung um den Faktor 8 eine konkurrenzfähige Leistung. Er ist somit erheblich schneller und weniger speicherintensiv als die neuesten Systeme für Sprachtrennung mit vergleichbarer Leistungsfähigkeit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp