HyperAIHyperAI
il y a 11 jours

Préentraînement Image-Language centré sur la région pour la détection à vocabulaire ouvert

Dahun Kim, Anelia Angelova, Weicheng Kuo
Préentraînement Image-Language centré sur la région pour la détection à vocabulaire ouvert
Résumé

Nous présentons une nouvelle approche de détection à vocabulaire ouvert fondée sur une préformation image-langage centrée sur les régions, visant à combler l’écart entre la préformation à niveau d’image et la détection d’objets à vocabulaire ouvert. Lors de la phase de préformation, nous intégrons l’architecture de détecteur au-dessus du modèle de classification, ce qui mieux répond aux besoins de reconnaissance au niveau des régions grâce à la capacité des têtes de détecteur à apprendre à partir de paires image-texte à grande échelle. En n’utilisant que la perte contrastive standard et aucune étiquetage par pseudo-étiquettes, notre méthode constitue une extension simple mais efficace de l’apprentissage contrastif, permettant l’émergence de signaux sémantiques liés aux objets. En outre, nous proposons une stratégie d’apprentissage à fenêtres décalées basée sur l’attention par fenêtres, afin de rendre les représentations du modèle de base plus robustes, invariantes aux translations et moins biaisées par les motifs de fenêtres. Sur le benchmark populaire LVIS pour la détection à vocabulaire ouvert, notre approche établit un nouveau record mondial avec 37,6 mask APr en utilisant le modèle ViT-L couramment employé et le jeu de données public LAION, et atteint 40,5 mask APr avec le jeu de données DataComp-1B, surpassant significativement l’approche existante la plus performante de +3,7 mask APr au niveau du système. Sur le benchmark COCO, nous obtenons un résultat très compétitif de 39,6 novel AP, sans recourir à des pseudo-étiquettes ni à une supervision faible. En outre, nous évaluons notre méthode dans un cadre de détection transférée, où elle montre une amélioration notable par rapport à la base. Les visualisations révèlent l’émergence d’une localisation d’objets plus précise dans les recettes de préformation par rapport à la base.

Préentraînement Image-Language centré sur la région pour la détection à vocabulaire ouvert | Articles de recherche récents | HyperAI