HyperAIHyperAI

Command Palette

Search for a command to run...

Optimisation des cartes de pertinence des Vision Transformers améliore la robustesse

Hila Chefer Idan Schwartz Lior Wolf

Résumé

On a observé que les modèles de classification visuelle s’appuient souvent principalement sur le fond de l’image, en négligeant le premier plan, ce qui nuit à leur robustesse face aux changements de distribution. Pour atténuer cet inconvénient, nous proposons de surveiller le signal de pertinence du modèle et de l’ajuster de manière à focaliser l’attention sur l’objet du premier plan. Cette étape est réalisée comme une phase de fine-tuning, nécessitant un nombre relativement faible d’échantillons composés de paires d’images et de masques associés au premier plan. Plus précisément, nous encourageons la carte de pertinence du modèle à (i) attribuer une pertinence plus faible aux régions de fond, (ii) exploiter autant d’informations que possible provenant du premier plan, et (iii) produire des décisions avec un haut degré de confiance. Lorsqu’appliqué aux modèles Vision Transformer (ViT), cette approche conduit à une amélioration marquée de la robustesse aux décalages de domaine. De plus, les masques du premier plan peuvent être obtenus automatiquement à partir d’une variante auto-supervisée du modèle ViT lui-même, ce qui rend toute supervision supplémentaire inutile.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp