HyperAIHyperAI

Command Palette

Search for a command to run...

Distillation masquée asymétrique pour l'entraînement préalable de petits modèles fondamentaux

Zhiyu Zhao Bingkun Huang Sen Xing Gangshan Wu Yu Qiao Limin Wang

Résumé

Les modèles fondamentaux auto-supervisés ont montré un grand potentiel en vision par ordinateur grâce au paradigme d’entraînement préalable basé sur le décodage masqué. L’échelle est un facteur principal influençant les performances de ces modèles fondamentaux. Toutefois, ces grands modèles fondamentaux entraînent souvent un coût computationnel élevé. Ce papier se concentre sur l’entraînement préalable de modèles Vision Transformer (ViT) relativement petits, pouvant être efficacement adaptés aux tâches en aval. Plus précisément, inspirés par la distillation de connaissances utilisée dans la compression de modèles, nous proposons un nouveau cadre asymétrique de distillation masquée (AMD) pour l’entraînement préalable de modèles de petite taille via le décodage auto-encodé. Le cœur de AMD réside dans une stratégie de masquage asymétrique : le modèle enseignant peut accéder à davantage d’informations contextuelles grâce à un taux de masquage plus faible, tandis que le modèle élève conserve un taux de masquage élevé. Nous avons conçu une alignement des caractéristiques multi-couches personnalisé entre l’encodeur enseignant et l’encodeur élève afin de régulariser l’entraînement préalable du MAE élève. Pour démontrer l’efficacité et la polyvalence de AMD, nous l’appliquons à la fois à ImageMAE et VideoMAE afin d’entraîner préalablement des modèles ViT de petite taille. AMD atteint une précision de classification de 84,6 % sur IN1K en utilisant le modèle ViT-B. De plus, AMD atteint une précision de 73,3 % sur le jeu de données Something-in-Something V2 en utilisant le modèle ViT-B, soit une amélioration de 3,7 % par rapport au modèle ViT-B original issu de VideoMAE. Nous transférons également les modèles pré-entraînés avec AMD vers des tâches en aval, obtenant une amélioration cohérente des performances par rapport au décodage auto-encodé original. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/MCG-NJU/AMD.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp