MixPro : Augmentation de données avec MaskMix et attention progressive pour Vision Transformer

La méthode de data augmentation TransMix récemment proposée utilise des étiquettes d'attention pour aider les transformateurs visuels (ViT) à atteindre une meilleure robustesse et performance. Cependant, TransMix présente deux insuffisances : 1) La méthode de recadrage d'images de TransMix peut ne pas être adaptée aux ViTs. 2) Au début de l'entraînement, le modèle produit des cartes d'attention peu fiables. TransMix utilise ces cartes d'attention peu fiables pour calculer des étiquettes d'attention mixtes, ce qui peut affecter le modèle. Pour remédier à ces problèmes, nous proposons MaskMix et Progressive Attention Labeling (PAL) dans les espaces d'image et d'étiquette, respectivement.En détail, du point de vue de l'espace d'image, nous avons conçu MaskMix, qui mélange deux images en utilisant un masque en grille par patch. En particulier, la taille de chaque patch de masque est ajustable et est un multiple de la taille du patch d'image, garantissant ainsi que chaque patch d'image provient d'une seule image et contient plus de contenu global. Du point de vue de l'espace d'étiquette, nous avons conçu PAL, qui utilise un facteur progressif pour réajuster dynamiquement les poids d'attention des étiquettes d'attention mixtes.Finalement, nous combinons MaskMix et Progressive Attention Labeling pour former notre nouvelle méthode de data augmentation, nommée MixPro. Les résultats expérimentaux montrent que notre méthode peut améliorer divers modèles basés sur ViT à différentes échelles dans la classification ImageNet (73,8 % de précision top-1 basée sur DeiT-T pour 300 époques). Après avoir été pré-entraînés avec MixPro sur ImageNet, les modèles basés sur ViT démontrent également une meilleure transférabilité vers la segmentation sémantique, la détection d'objets et la segmentation d'instances. De plus, comparé à TransMix, MixPro montre une plus grande robustesse sur plusieurs benchmarks. Le code est disponible à l'adresse suivante : https://github.com/fistyee/MixPro.