HyperAIHyperAI

Command Palette

Search for a command to run...

GLIPv2 : Unification de la localisation et de la compréhension vision-langage

Haotian Zhang Pengchuan Zhang Xiaowei Hu Yen-Chun Chen Liunian Harold Li Xiyang Dai Lijuan Wang Lu Yuan Jenq-Neng Hwang Jianfeng Gao

Résumé

Nous présentons GLIPv2, un modèle d’understanding vision-langage (VL) ancré, qui prend en charge à la fois les tâches de localisation (par exemple, détection d’objets, segmentation d’instances) et les tâches d’understanding vision-langage (VL) (par exemple, QCM visuel, génération de légendes d’images). GLIPv2 unifie élégamment la pré-formation pour la localisation et la pré-formation vision-langage (VLP) à travers trois tâches de pré-formation : le repérage de phrases, reformulation VL de la tâche de détection ; l’apprentissage contrastif région-mot, une nouvelle tâche d’apprentissage contrastif au niveau région-mot ; et le modèle de langage masqué. Cette unification simplifie non seulement le procédé VLP précédemment multi-étapes, mais permet également des bénéfices mutuels entre les tâches de localisation et d’understanding. Les résultats expérimentaux montrent qu’un seul modèle GLIPv2 (tous les poids du modèle étant partagés) atteint des performances proches de l’état de l’art (SoTA) sur diverses tâches de localisation et d’understanding. Le modèle démontre également (1) une forte capacité d’adaptation zéro-shot et peu-shot sur les tâches de détection d’objets à vocabulaire ouvert, et (2) une capacité de repérage supérieure sur les tâches d’understanding vision-langage. Le code sera publié à l’adresse suivante : https://github.com/microsoft/GLIP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp