Pré-entraînement de la langue et des images ancrées

Ce document présente un modèle de pré-entraînement langage-image ancré (GLIP) pour l'apprentissage de représentations visuelles au niveau des objets, sensibles au langage et riches en sémantique. GLIP unifie la détection d'objets et l'ancrage de phrases lors du pré-entraînement. Cette unification apporte deux avantages : 1) elle permet à GLIP d'apprendre à partir des données de détection et d'ancrage pour améliorer les deux tâches et initialiser un bon modèle d'ancrage ; 2) GLIP peut tirer parti de paires image-texte massives en générant des boîtes d'ancrage de manière auto-entraînée, rendant ainsi les représentations apprises riches en sémantique. Dans nos expériences, nous avons pré-entraîné GLIP sur 27 millions de données d'ancrage, comprenant 3 millions d'annotations manuelles et 24 millions de paires image-texte collectées sur le web. Les représentations apprises montrent une forte transférabilité zéro-shot et few-shot vers diverses tâches de reconnaissance au niveau des objets. 1) Lorsqu'il est évalué directement sur COCO et LVIS (sans voir aucune image dans COCO pendant le pré-entraînement), GLIP atteint respectivement 49,8 AP et 26,9 AP, surpassant de nombreux baselines supervisés. 2) Après avoir été affiné sur COCO, GLIP atteint 60,8 AP sur val et 61,5 AP sur test-dev, surpassant les précédents états de l'art (SoTA). 3) Lorsqu'il est transféré à 13 tâches downstream de détection d'objets, un GLIP à 1-shot rivalise avec une tête dynamique entièrement supervisée (Dynamic Head). Le code est disponible à l'adresse https://github.com/microsoft/GLIP.