HyperAIHyperAI

Command Palette

Search for a command to run...

Préformation axée sur les régions pour la détection d'objets à vocabulaire ouvert avec des transformateurs visuels

Dahun Kim; Anelia Angelova; Weicheng Kuo

Résumé

Nous présentons les Region-aware Open-vocabulary Vision Transformers (RO-ViT) - une recette de préformation contrastive image-texte visant à combler l'écart entre la préformation au niveau des images et la détection d'objets à vocabulaire ouvert. Pendant la phase de préformation, nous proposons de découper aléatoirement et redimensionner des régions des plongements positionnels plutôt que d'utiliser les plongements positionnels de l'image entière. Cela correspond mieux à l'utilisation des plongements positionnels au niveau des régions lors de la phase de fine-tuning pour la détection. De plus, nous remplaçons la perte courante de softmax cross entropy dans l'apprentissage contrastif par une perte focale afin d'améliorer l'apprentissage des exemples informatifs mais difficiles. Enfin, nous utilisons les récentes avancées en matière de propositions d'objets nouveaux pour améliorer le fine-tuning de la détection à vocabulaire ouvert. Nous évaluons notre modèle complet sur les benchmarks de détection à vocabulaire ouvert LVIS et COCO ainsi que sur le transfert zéro-shot. RO-ViT atteint un état de l'art avec 34,1 APrAP_rAPr sur LVIS, surpassant la meilleure approche existante de +7,8 points tout en offrant une performance compétitive en transfert zéro-shot. De manière surprenante, RO-ViT améliore également la représentation au niveau des images et atteint l'état de l'art sur 9 des 12 métriques des benchmarks de recherche image-texte COCO et Flickr, surpassant des approches compétitives dotées de modèles plus importants.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Préformation axée sur les régions pour la détection d'objets à vocabulaire ouvert avec des transformateurs visuels | Articles | HyperAI