DetCLIPv2 : Pré-entraînement détection d'objets à vocabulaire ouvert évolutif par alignement mot-région

Ce papier présente DetCLIPv2, un cadre d’entraînement efficace et évolutif qui intègre des paires image-texte à grande échelle pour réaliser une détection d’objets à vocabulaire ouvert (OVD). Contrairement aux cadres OVD précédents, qui s’appuient généralement sur un modèle vision-langage pré-entraîné (par exemple, CLIP) ou exploitent les paires image-texte via un processus de pseudo-étiquetage, DetCLIPv2 apprend directement l’alignement fin entre mots et régions à partir de vastes collections de paires image-texte de manière end-to-end. Pour y parvenir, nous utilisons la similarité maximale mot-région entre les propositions de régions et les mots textuels afin de guider l’objectif contrastif. Afin de permettre au modèle d’acquérir une capacité de localisation tout en apprenant des concepts généraux, DetCLIPv2 est entraîné avec une supervision hybride issue des données de détection, de localisation (grounding) et de paires image-texte, sous une formulation unifiée des données. En combinant un schéma d’entraînement alterné et en utilisant des entrées à faible résolution pour les paires image-texte, DetCLIPv2 exploite efficacement et efficacement les données de paires image-texte : DetCLIPv2 utilise 13 fois plus de paires image-texte que DetCLIP, avec un temps d’entraînement similaire, tout en améliorant significativement les performances. Avec 13 millions de paires image-texte pour l’entraînement préalable, DetCLIPv2 démontre des performances supérieures en détection à vocabulaire ouvert : par exemple, DetCLIPv2 utilisant un squelette Swin-T atteint 40,4 % de précision à zéro-shot (AP) sur le benchmark LVIS, surpassant ainsi les travaux précédents GLIP/GLIPv2/DetCLIP respectivement de 14,4 / 11,4 / 4,5 % d’AP, et même battant largement son homologue entièrement supervisé.