Adapter Vision Transformer pour des prédictions denses

Cette étude explore un adaptateur simple mais puissant pour les tâches de prédiction dense dans les Vision Transformers (ViT). Contrairement aux variantes récentes qui intègrent des biais inductifs spécifiques à la vision dans leurs architectures, le ViT standard souffre d'une performance inférieure sur les tâches de prédiction dense en raison d'hypothèses a priori faibles. Pour remédier à ce problème, nous proposons ViT-Adapter, qui permet au ViT standard d'atteindre une performance comparable à celle des transformers spécifiques à la vision. Plus précisément, le squelette de notre cadre est un ViT standard capable d'apprendre des représentations puissantes à partir de données multimodales à grande échelle. Lors de la transfert vers des tâches descendantes, un adaptateur sans pré-entraînement est utilisé pour introduire des biais inductifs liés à l’image dans le modèle, le rendant ainsi adapté à ces tâches. Nous validons ViT-Adapter sur plusieurs tâches de prédiction dense, notamment la détection d'objets, la segmentation d'instances et la segmentation sémantique. Notamment, sans utiliser de données supplémentaires pour la détection, notre ViT-Adapter-L atteint des performances de pointe sur COCO test-dev, avec un AP boîte de 60,9 et un AP masque de 53,0. Nous espérons que ViT-Adapter pourra servir d'alternative aux transformers spécifiques à la vision et faciliter les recherches futures. Le code et les modèles seront publiés à l’adresse suivante : https://github.com/czczup/ViT-Adapter.