HyperAIHyperAI
vor 2 Monaten

Effizientes Training von Audio-Transformern mit Patchout

Koutini, Khaled ; Schlüter, Jan ; Eghbal-zadeh, Hamid ; Widmer, Gerhard
Effizientes Training von Audio-Transformern mit Patchout
Abstract

Der große Erfolg von transformer-basierten Modellen im Bereich der natürlichen Sprachverarbeitung (NLP) hat zu verschiedenen Versuchen geführt, diese Architekturen auf andere Bereiche wie Vision und Audio anzupassen. Neuere Arbeiten haben gezeigt, dass Transformatoren bei visuellen und audiomäßigen Aufgaben die Leistungsfähigkeit von Faltungsneuronalen Netzen (CNNs) übertrumpfen können. Ein wesentlicher Nachteil von Transformer-Modellen im Vergleich zu den etablierten CNNs ist jedoch deren Rechenkomplexität. Bei Transformatoren wächst die Rechen- und Speicherkomplexität bekanntermaßen quadratisch mit der Länge des Eingangs. Daher wurde intensiv an der Optimierung von Transformatoren gearbeitet, oft jedoch auf Kosten einer Verschlechterung der Vorhersageleistung. In dieser Arbeit schlagen wir eine neue Methode vor, um Transformatoren bei Audio-Spektrogrammen zu optimieren und zu regularisieren. Unsere vorgeschlagenen Modelle erzielen einen neuen Stand der Technik bei Audioset und können auf einem einzelnen GPU vom Verbraucherniveau trainiert werden. Darüber hinaus schlagen wir ein Transformer-Modell vor, das CNNs sowohl in Bezug auf Leistung als auch auf Trainingsgeschwindigkeit übertrifft. Quellcode: https://github.com/kkoutini/PaSST

Effizientes Training von Audio-Transformern mit Patchout | Neueste Forschungsarbeiten | HyperAI