il y a 11 jours

GLIPv2 : Unification de la localisation et de la compréhension vision-langage

Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao

Voir les détails de l'article

GLIPv2 : Unification de la localisation et de la compréhension vision-langage

Résumé

Nous présentons GLIPv2, un modèle d’understanding vision-langage (VL) ancré, qui prend en charge à la fois les tâches de localisation (par exemple, détection d’objets, segmentation d’instances) et les tâches d’understanding vision-langage (VL) (par exemple, QCM visuel, génération de légendes d’images). GLIPv2 unifie élégamment la pré-formation pour la localisation et la pré-formation vision-langage (VLP) à travers trois tâches de pré-formation : le repérage de phrases, reformulation VL de la tâche de détection ; l’apprentissage contrastif région-mot, une nouvelle tâche d’apprentissage contrastif au niveau région-mot ; et le modèle de langage masqué. Cette unification simplifie non seulement le procédé VLP précédemment multi-étapes, mais permet également des bénéfices mutuels entre les tâches de localisation et d’understanding. Les résultats expérimentaux montrent qu’un seul modèle GLIPv2 (tous les poids du modèle étant partagés) atteint des performances proches de l’état de l’art (SoTA) sur diverses tâches de localisation et d’understanding. Le modèle démontre également (1) une forte capacité d’adaptation zéro-shot et peu-shot sur les tâches de détection d’objets à vocabulaire ouvert, et (2) une capacité de repérage supérieure sur les tâches d’understanding vision-langage. Le code sera publié à l’adresse suivante : https://github.com/microsoft/GLIP.