HyperAIHyperAI
il y a 2 mois

Formation efficace de transformateurs audio avec Patchout

Koutini, Khaled ; Schlüter, Jan ; Eghbal-zadeh, Hamid ; Widmer, Gerhard
Formation efficace de transformateurs audio avec Patchout
Résumé

Le grand succès des modèles basés sur les transformateurs dans le traitement automatique des langues (NLP) a conduit à diverses tentatives d'adaptation de ces architectures à d'autres domaines tels que la vision et l'audio. Des travaux récents ont montré que les transformateurs peuvent surpasser les Réseaux Neuronaux Convolutifs (CNNs) dans les tâches de vision et d'audio. Cependant, l'un des principaux inconvénients des modèles de transformateurs, par rapport aux CNNs bien établis, est leur complexité computationnelle. Dans les transformateurs, la complexité en calcul et en mémoire est connue pour croître quadratiquement avec la longueur de l'entrée. Par conséquent, de nombreux travaux ont été réalisés pour optimiser les transformateurs, mais souvent au détriment de leurs performances prédictives. Dans cette étude, nous proposons une nouvelle méthode pour optimiser et régulariser les transformateurs sur des spectrogrammes audio. Nos modèles proposés atteignent une nouvelle performance de pointe sur Audioset et peuvent être formés sur une seule carte graphique grand public (GPU). De plus, nous proposons un modèle de transformateur qui surpassent les CNNs en termes de performance et de vitesse d'entraînement. Code source : https://github.com/kkoutini/PaSST

Formation efficace de transformateurs audio avec Patchout | Articles de recherche récents | HyperAI