Command Palette
Search for a command to run...
GLIPv2 : Unification de la localisation et de la compréhension vision-langage
GLIPv2 : Unification de la localisation et de la compréhension vision-langage
Haotian Zhang Pengchuan Zhang Xiaowei Hu Yen-Chun Chen Liunian Harold Li Xiyang Dai Lijuan Wang Lu Yuan Jenq-Neng Hwang Jianfeng Gao
Résumé
Nous présentons GLIPv2, un modèle d’understanding vision-langage (VL) ancré, qui prend en charge à la fois les tâches de localisation (par exemple, détection d’objets, segmentation d’instances) et les tâches d’understanding vision-langage (VL) (par exemple, QCM visuel, génération de légendes d’images). GLIPv2 unifie élégamment la pré-formation pour la localisation et la pré-formation vision-langage (VLP) à travers trois tâches de pré-formation : le repérage de phrases, reformulation VL de la tâche de détection ; l’apprentissage contrastif région-mot, une nouvelle tâche d’apprentissage contrastif au niveau région-mot ; et le modèle de langage masqué. Cette unification simplifie non seulement le procédé VLP précédemment multi-étapes, mais permet également des bénéfices mutuels entre les tâches de localisation et d’understanding. Les résultats expérimentaux montrent qu’un seul modèle GLIPv2 (tous les poids du modèle étant partagés) atteint des performances proches de l’état de l’art (SoTA) sur diverses tâches de localisation et d’understanding. Le modèle démontre également (1) une forte capacité d’adaptation zéro-shot et peu-shot sur les tâches de détection d’objets à vocabulaire ouvert, et (2) une capacité de repérage supérieure sur les tâches d’understanding vision-langage. Le code sera publié à l’adresse suivante : https://github.com/microsoft/GLIP.