HyperAIHyperAI

Command Palette

Search for a command to run...

Pré-entraînement de la langue et des images ancrées

Résumé

Ce document présente un modèle de pré-entraînement langage-image ancré (GLIP) pour l'apprentissage de représentations visuelles au niveau des objets, sensibles au langage et riches en sémantique. GLIP unifie la détection d'objets et l'ancrage de phrases lors du pré-entraînement. Cette unification apporte deux avantages : 1) elle permet à GLIP d'apprendre à partir des données de détection et d'ancrage pour améliorer les deux tâches et initialiser un bon modèle d'ancrage ; 2) GLIP peut tirer parti de paires image-texte massives en générant des boîtes d'ancrage de manière auto-entraînée, rendant ainsi les représentations apprises riches en sémantique. Dans nos expériences, nous avons pré-entraîné GLIP sur 27 millions de données d'ancrage, comprenant 3 millions d'annotations manuelles et 24 millions de paires image-texte collectées sur le web. Les représentations apprises montrent une forte transférabilité zéro-shot et few-shot vers diverses tâches de reconnaissance au niveau des objets. 1) Lorsqu'il est évalué directement sur COCO et LVIS (sans voir aucune image dans COCO pendant le pré-entraînement), GLIP atteint respectivement 49,8 AP et 26,9 AP, surpassant de nombreux baselines supervisés. 2) Après avoir été affiné sur COCO, GLIP atteint 60,8 AP sur val et 61,5 AP sur test-dev, surpassant les précédents états de l'art (SoTA). 3) Lorsqu'il est transféré à 13 tâches downstream de détection d'objets, un GLIP à 1-shot rivalise avec une tête dynamique entièrement supervisée (Dynamic Head). Le code est disponible à l'adresse https://github.com/microsoft/GLIP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp