Command Palette
Search for a command to run...
Réseaux Neuronaux Convolutifs Dynamiques en tant que Modèles Audio Pré-entraînés Efficaces
Réseaux Neuronaux Convolutifs Dynamiques en tant que Modèles Audio Pré-entraînés Efficaces
Florian Schmid Khaled Koutini Gerhard Widmer
Résumé
L'introduction de grands ensembles de données audio, tels qu'AudioSet, a ouvert la voie aux Transformers pour conquérir le domaine audio et remplacer les CNNs comme l'architecture de réseau neuronal de pointe pour de nombreuses tâches. Les Transformers d'audio spectrogramme sont excellents pour exploiter de grands ensembles de données, créant des modèles pré-entraînés puissants qui surpassent les CNNs lorsqu'ils sont affinés sur des tâches en aval. Cependant, les Transformers d'audio spectrogramme actuellement populaires sont exigeants en termes de complexité computationnelle par rapport aux CNNs. Récemment, nous avons démontré que, grâce à la distillation de connaissances Transformer vers CNN, des CNNs efficaces peuvent rattraper et même surpasser les Transformers sur de grands ensembles de données. Dans ce travail, nous prolongeons cette ligne de recherche et augmentons la capacité des CNNs efficaces en introduisant des blocs CNN dynamiques, composés de non-linéarités dynamiques, convolutions dynamiques et mécanismes d'attention. Nous montrons que ces CNNs dynamiques surpassent les CNNs traditionnels efficaces en termes d'échange performance-complexité et d'efficacité paramétrique dans la tâche d'étiquetage audio à grande échelle sur AudioSet. Nos expériences indiquent également que les CNNs dynamiques introduits atteignent une meilleure performance sur les tâches en aval et se développent bien, atteignant les performances des Transformers et même les surpassant sur AudioSet et plusieurs tâches en aval.