HyperAIHyperAI

Command Palette

Search for a command to run...

Marquage audio à grande échelle efficace par distillation de connaissances Transformer-vers-CNN

Florian Schmid Khaled Koutini Gerhard Widmer

Résumé

Les modèles Audio Spectrogram Transformer dominent actuellement le domaine de l’audio tagging, surpassant les réseaux de neurones convolutifs (CNN) qui étaient auparavant prédominants. Leur supériorité repose sur leur capacité à être mis à l’échelle et à exploiter des jeux de données massifs, tels que AudioSet. Toutefois, les Transformers sont plus exigeants en termes de taille de modèle et de ressources computationnelles par rapport aux CNN. Nous proposons une procédure d’entraînement pour des CNN efficaces basée sur une distillation de connaissances (Knowledge Distillation, KD) hors ligne issue de transformateurs performants mais complexes. Ce schéma d’entraînement, combiné à une architecture de CNN efficace fondée sur MobileNetV3, donne lieu à des modèles surpassant les solutions antérieures en termes d’efficacité en paramètres et en calcul, ainsi qu’en performance de prédiction. Nous fournissons des modèles de complexité variée, allant de modèles à faible complexité à un nouveau record de performance atteignant 0,483 mAP sur AudioSet. Le code source est disponible à l’adresse suivante : https://github.com/fschmid56/EfficientAT


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp