HyperAIHyperAI
il y a 17 jours

MixMAE : Autoencodeur Mixte et Masqué pour un Pré-entraînement Efficace des Transformers Visuels Hiérarchiques

Jihao Liu, Xin Huang, Jinliang Zheng, Yu Liu, Hongsheng Li
MixMAE : Autoencodeur Mixte et Masqué pour un Pré-entraînement Efficace des Transformers Visuels Hiérarchiques
Résumé

Dans cet article, nous proposons MixMAE, un modèle de préentraînement simple mais efficace, applicable à diverses architectures Vision Transformers hiérarchiques. Les méthodes existantes de modélisation d’image masquée (MIM) pour les Vision Transformers hiérarchiques remplacent un sous-ensemble aléatoire des jetons d’entrée par un symbole spécial [MASK], avec pour objectif de reconstruire les jetons d’image d’origine à partir de l’image corrompue. Toutefois, nous constatons que l’utilisation du symbole [MASK] ralentit considérablement l’entraînement et engendre une incohérence entre le préentraînement et le fine-tuning, en raison d’un taux de masquage élevé (par exemple, 60 % dans SimMIM). D’un autre côté, MAE ne fait aucun usage de jetons [MASK] dans son encodeur, mais n’est pas applicable aux Vision Transformers hiérarchiques. Pour résoudre ce problème et accélérer le préentraînement des modèles hiérarchiques, nous remplaçons les jetons masqués d’une image par des jetons visibles d’une autre image, formant ainsi une image mélangée. Nous réalisons ensuite une reconstruction double, visant à reconstruire les deux images d’origine à partir de l’entrée mélangée, ce qui améliore significativement l’efficacité. Bien que MixMAE puisse être appliqué à diverses architectures hiérarchiques, cet article explore son utilisation avec le Swin Transformer à fenêtre large et à une taille de modèle considérable (jusqu’à 600 millions de paramètres). Les résultats expérimentaux montrent que MixMAE permet d’apprendre efficacement des représentations visuelles de haute qualité. Notamment, MixMAE avec Swin-B/W14 atteint une précision top-1 de 85,1 % sur ImageNet-1K après 600 époques de préentraînement. De plus, ses performances de transfert sur six autres jeux de données démontrent que MixMAE offre un meilleur compromis entre complexité en opérations flottantes (FLOPs) et performance par rapport aux méthodes MIM populaires antérieures. Le code est disponible à l’adresse suivante : https://github.com/Sense-X/MixMIM.

MixMAE : Autoencodeur Mixte et Masqué pour un Pré-entraînement Efficace des Transformers Visuels Hiérarchiques | Articles de recherche récents | HyperAI