Command Palette
Search for a command to run...
DTF-AT : Transformer audio temps-fréquence déconnecté pour la classification d'événements
DTF-AT : Transformer audio temps-fréquence déconnecté pour la classification d'événements
Philip JB Jackson Muhammad Awais Armin Mustafa Sara Ahmed Tony Alex
Résumé
Les réseaux de neurones convolutionnels (CNN) et les réseaux fondés sur les Transformers ont récemment suscité un intérêt croissant pour diverses tâches de classification et d’étiquetage audio, suite à leur adoption massive dans le domaine de la vision par ordinateur. Malgré les différences dans la distribution des informations entre les spectrogrammes audio et les images naturelles, l’exploration de mécanismes efficaces pour extraire l’information à partir des spectrogrammes à l’aide de couches spécifiques au domaine audio reste limitée. Dans cet article, nous exploitons le potentiel du Multi-Axis Vision Transformer (MaxViT) afin de concevoir DTF-AT (Decoupled Time-Frequency Audio Transformer), un modèle permettant des interactions riches entre les dimensions temporelle, fréquentielle, spatiale et de canal. L’architecture proposée DTF-AT est rigoureusement évaluée sur une variété de tâches de classification audio et vocales, établissant de manière cohérente de nouveaux records (SOTA) pour les performances les plus avancées. Notamment, sur la tâche exigeante de classification AudioSet 2M, notre approche montre une amélioration significative de 4,4 % lorsque le modèle est entraîné à partir de zéro, et de 3,2 % lorsque le modèle est initialisé à partir de poids préentraînés sur ImageNet-1K. En outre, nous présentons des études d’ablation approfondies afin d’analyser l’impact et l’efficacité de notre méthode. Le code source et les poids préentraînés sont disponibles à l’adresse suivante : https://github.com/ta012/DTFAT.git