Préformation axée sur les régions pour la détection d'objets à vocabulaire ouvert avec des transformateurs visuels

Nous présentons les Region-aware Open-vocabulary Vision Transformers (RO-ViT) - une recette de préformation contrastive image-texte visant à combler l'écart entre la préformation au niveau des images et la détection d'objets à vocabulaire ouvert. Pendant la phase de préformation, nous proposons de découper aléatoirement et redimensionner des régions des plongements positionnels plutôt que d'utiliser les plongements positionnels de l'image entière. Cela correspond mieux à l'utilisation des plongements positionnels au niveau des régions lors de la phase de fine-tuning pour la détection. De plus, nous remplaçons la perte courante de softmax cross entropy dans l'apprentissage contrastif par une perte focale afin d'améliorer l'apprentissage des exemples informatifs mais difficiles. Enfin, nous utilisons les récentes avancées en matière de propositions d'objets nouveaux pour améliorer le fine-tuning de la détection à vocabulaire ouvert. Nous évaluons notre modèle complet sur les benchmarks de détection à vocabulaire ouvert LVIS et COCO ainsi que sur le transfert zéro-shot. RO-ViT atteint un état de l'art avec 34,1 $AP_r$ sur LVIS, surpassant la meilleure approche existante de +7,8 points tout en offrant une performance compétitive en transfert zéro-shot. De manière surprenante, RO-ViT améliore également la représentation au niveau des images et atteint l'état de l'art sur 9 des 12 métriques des benchmarks de recherche image-texte COCO et Flickr, surpassant des approches compétitives dotées de modèles plus importants.