Marquage audio à grande échelle efficace par distillation de connaissances Transformer-vers-CNN

Les modèles Audio Spectrogram Transformer dominent actuellement le domaine de l’audio tagging, surpassant les réseaux de neurones convolutifs (CNN) qui étaient auparavant prédominants. Leur supériorité repose sur leur capacité à être mis à l’échelle et à exploiter des jeux de données massifs, tels que AudioSet. Toutefois, les Transformers sont plus exigeants en termes de taille de modèle et de ressources computationnelles par rapport aux CNN. Nous proposons une procédure d’entraînement pour des CNN efficaces basée sur une distillation de connaissances (Knowledge Distillation, KD) hors ligne issue de transformateurs performants mais complexes. Ce schéma d’entraînement, combiné à une architecture de CNN efficace fondée sur MobileNetV3, donne lieu à des modèles surpassant les solutions antérieures en termes d’efficacité en paramètres et en calcul, ainsi qu’en performance de prédiction. Nous fournissons des modèles de complexité variée, allant de modèles à faible complexité à un nouveau record de performance atteignant 0,483 mAP sur AudioSet. Le code source est disponible à l’adresse suivante : https://github.com/fschmid56/EfficientAT