HTS-AT : Un Transformateur Audio Hiérarchique Token-Sémantique pour la Classification et la Détection Sonores

La classification audio est une tâche essentielle consistant à mapper des échantillons audio à leurs étiquettes correspondantes. Récemment, les modèles transformer basés sur des mécanismes d’attention auto-attention ont été adoptés dans ce domaine. Toutefois, les transformateurs audio existants nécessitent une grande mémoire GPU et des temps d’entraînement longs, tout en s’appuyant sur des modèles préentraînés visionnels pour atteindre de hautes performances, ce qui limite leur scalabilité dans les tâches audio. Pour surmonter ces problèmes, nous proposons HTS-AT : un transformateur audio à structure hiérarchique permettant de réduire la taille du modèle et le temps d’entraînement. Ce modèle est complété par un module token-sémantique qui mappe les sorties finales en cartes de caractéristiques de classe, permettant ainsi au modèle de détecter des événements audio (c’est-à-dire de localiser ces événements dans le temps). Nous évaluons HTS-AT sur trois jeux de données de classification audio, où il atteint de nouveaux états de l’art (SOTA) sur AudioSet et ESC-50, et égale le SOTA sur Speech Command V2. Il obtient également de meilleures performances en localisation d’événements que les modèles précédents basés sur des réseaux de neurones convolutifs (CNN). En outre, HTS-AT nécessite seulement 35 % des paramètres du modèle et 15 % du temps d’entraînement par rapport au transformateur audio précédent. Ces résultats démontrent l’efficacité et la haute performance de HTS-AT.