HyperAIHyperAI

Command Palette

Search for a command to run...

Effizientes Training von Audio-Transformern mit Patchout

Khaled Koutini Jan Schlüter Hamid Eghbal-zadeh Gerhard Widmer

Zusammenfassung

Der große Erfolg von transformer-basierten Modellen im Bereich der natürlichen Sprachverarbeitung (NLP) hat zu verschiedenen Versuchen geführt, diese Architekturen auf andere Bereiche wie Vision und Audio anzupassen. Neuere Arbeiten haben gezeigt, dass Transformatoren bei visuellen und audiomäßigen Aufgaben die Leistungsfähigkeit von Faltungsneuronalen Netzen (CNNs) übertrumpfen können. Ein wesentlicher Nachteil von Transformer-Modellen im Vergleich zu den etablierten CNNs ist jedoch deren Rechenkomplexität. Bei Transformatoren wächst die Rechen- und Speicherkomplexität bekanntermaßen quadratisch mit der Länge des Eingangs. Daher wurde intensiv an der Optimierung von Transformatoren gearbeitet, oft jedoch auf Kosten einer Verschlechterung der Vorhersageleistung. In dieser Arbeit schlagen wir eine neue Methode vor, um Transformatoren bei Audio-Spektrogrammen zu optimieren und zu regularisieren. Unsere vorgeschlagenen Modelle erzielen einen neuen Stand der Technik bei Audioset und können auf einem einzelnen GPU vom Verbraucherniveau trainiert werden. Darüber hinaus schlagen wir ein Transformer-Modell vor, das CNNs sowohl in Bezug auf Leistung als auch auf Trainingsgeschwindigkeit übertrifft. Quellcode: https://github.com/kkoutini/PaSST


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp