Transformateur de spectrogramme audio multiscale pour une classification audio efficace

L’événement audio présente une architecture hiérarchique à la fois dans le temps et dans la fréquence, et peut être regroupé pour former des classes sémantiques audio plus abstraites. Dans ce travail, nous proposons un Transformer à spectrogramme audio multiscale (MAST) qui exploite un apprentissage de représentations hiérarchiques afin d’assurer une classification audio efficace. Plus précisément, MAST utilise des opérateurs de pooling unidimensionnels (et bidimensionnels) selon les axes temporel (et fréquentiel) à différentes étapes, réduisant progressivement le nombre de tokens tout en augmentant les dimensions des caractéristiques. MAST surpasse significativement AST~\cite{gong2021ast} de 22,2 %, 4,4 % et 4,7 % en précision du top-1 sur les jeux de données Kinetics-Sounds, Epic-Kitchens-100 et VGGSound, sans recourir à des données externes pour l’entraînement. Sur le jeu de données AudioSet téléchargé, qui présente plus de 20 % d’éléments audio manquants, MAST atteint également une précision légèrement supérieure à celle d’AST. En outre, MAST est 5 fois plus efficace en termes d’opérations de multiplication-accumulation (MACs), tout en réduisant de 42 % le nombre de paramètres par rapport à AST. À travers des métriques de regroupement et des visualisations, nous démontrons que le MAST proposé est capable d’apprendre des représentations fonctionnelles plus séparables sur le plan sémantique à partir des signaux audio.