HyperAIHyperAI
il y a 2 mois

Pont entre les représentations au niveau des objets et des images pour la détection à vocabulaire ouvert

Hanoona Rasheed; Muhammad Maaz; Muhammad Uzair Khattak; Salman Khan; Fahad Shahbaz Khan
Pont entre les représentations au niveau des objets et des images pour la détection à vocabulaire ouvert
Résumé

Les détecteurs d'objets à vocabulaire ouvert existants agrandissent généralement leur taille de vocabulaire en utilisant différentes formes de supervision faible. Cela aide à généraliser aux nouveaux objets lors de l'inférence. Deux formes populaires de supervision faible utilisées dans la détection à vocabulaire ouvert (OVD) incluent le modèle préentraîné CLIP et la supervision au niveau de l'image. Nous notons que ces deux modes de supervision ne sont pas optimalement alignés pour la tâche de détection : CLIP est entraîné avec des paires image-texte et manque d'une localisation précise des objets, tandis que la supervision au niveau de l'image a été utilisée avec des heuristiques qui ne spécifient pas exactement les régions locales des objets. Dans ce travail, nous proposons de résoudre ce problème en effectuant un alignement centré sur les objets des plongements linguistiques issus du modèle CLIP. De plus, nous ancrageons visuellement les objets uniquement avec une supervision au niveau de l'image en utilisant un processus d'étiquetage pseudo qui fournit des propositions d'objets de haute qualité et aide à élargir le vocabulaire pendant l'entraînement. Nous établissons un pont entre les deux stratégies d'alignement d'objets mentionnées ci-dessus grâce à une nouvelle fonction de transfert pondéré qui combine leurs forces complémentaires. En substance, le modèle proposé vise à minimiser l'écart entre les représentations centrées sur les objets et centrées sur les images dans le cadre de la détection à vocabulaire ouvert (OVD). Sur le banc d'essai COCO, notre approche proposée atteint 36,6 AP50 pour les classes nouvelles, soit une amélioration absolue de 8,2 points par rapport aux meilleures performances précédentes. Pour LVIS, nous surpassons le modèle ViLD state-of-the-art avec une amélioration de 5,0 points en masque AP pour les catégories rares et 3,4 points globalement. Code : https://github.com/hanoonaR/object-centric-ovd.

Pont entre les représentations au niveau des objets et des images pour la détection à vocabulaire ouvert | Articles de recherche récents | HyperAI