il y a 17 jours

Distillation masquée asymétrique pour l'entraînement préalable de petits modèles fondamentaux

Zhiyu Zhao, Bingkun Huang, Sen Xing, Gangshan Wu, Yu Qiao, Limin Wang

Résumé

Les modèles fondamentaux auto-supervisés ont montré un grand potentiel en vision par ordinateur grâce au paradigme d’entraînement préalable basé sur le décodage masqué. L’échelle est un facteur principal influençant les performances de ces modèles fondamentaux. Toutefois, ces grands modèles fondamentaux entraînent souvent un coût computationnel élevé. Ce papier se concentre sur l’entraînement préalable de modèles Vision Transformer (ViT) relativement petits, pouvant être efficacement adaptés aux tâches en aval. Plus précisément, inspirés par la distillation de connaissances utilisée dans la compression de modèles, nous proposons un nouveau cadre asymétrique de distillation masquée (AMD) pour l’entraînement préalable de modèles de petite taille via le décodage auto-encodé. Le cœur de AMD réside dans une stratégie de masquage asymétrique : le modèle enseignant peut accéder à davantage d’informations contextuelles grâce à un taux de masquage plus faible, tandis que le modèle élève conserve un taux de masquage élevé. Nous avons conçu une alignement des caractéristiques multi-couches personnalisé entre l’encodeur enseignant et l’encodeur élève afin de régulariser l’entraînement préalable du MAE élève. Pour démontrer l’efficacité et la polyvalence de AMD, nous l’appliquons à la fois à ImageMAE et VideoMAE afin d’entraîner préalablement des modèles ViT de petite taille. AMD atteint une précision de classification de 84,6 % sur IN1K en utilisant le modèle ViT-B. De plus, AMD atteint une précision de 73,3 % sur le jeu de données Something-in-Something V2 en utilisant le modèle ViT-B, soit une amélioration de 3,7 % par rapport au modèle ViT-B original issu de VideoMAE. Nous transférons également les modèles pré-entraînés avec AMD vers des tâches en aval, obtenant une amélioration cohérente des performances par rapport au décodage auto-encodé original. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/MCG-NJU/AMD.