HyperAIHyperAI
il y a 17 jours

Optimisation des cartes de pertinence des Vision Transformers améliore la robustesse

Hila Chefer, Idan Schwartz, Lior Wolf
Optimisation des cartes de pertinence des Vision Transformers améliore la robustesse
Résumé

On a observé que les modèles de classification visuelle s’appuient souvent principalement sur le fond de l’image, en négligeant le premier plan, ce qui nuit à leur robustesse face aux changements de distribution. Pour atténuer cet inconvénient, nous proposons de surveiller le signal de pertinence du modèle et de l’ajuster de manière à focaliser l’attention sur l’objet du premier plan. Cette étape est réalisée comme une phase de fine-tuning, nécessitant un nombre relativement faible d’échantillons composés de paires d’images et de masques associés au premier plan. Plus précisément, nous encourageons la carte de pertinence du modèle à (i) attribuer une pertinence plus faible aux régions de fond, (ii) exploiter autant d’informations que possible provenant du premier plan, et (iii) produire des décisions avec un haut degré de confiance. Lorsqu’appliqué aux modèles Vision Transformer (ViT), cette approche conduit à une amélioration marquée de la robustesse aux décalages de domaine. De plus, les masques du premier plan peuvent être obtenus automatiquement à partir d’une variante auto-supervisée du modèle ViT lui-même, ce qui rend toute supervision supplémentaire inutile.

Optimisation des cartes de pertinence des Vision Transformers améliore la robustesse | Articles de recherche récents | HyperAI