HyperAIHyperAI
il y a 11 jours

RLIPv2 : Une mise à l’échelle rapide de la préformation relationnelle langage-image

Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, Deli Zhao
RLIPv2 : Une mise à l’échelle rapide de la préformation relationnelle langage-image
Résumé

Le pré-entraînement relationnel langage-image (RLIP) vise à aligner les représentations visuelles avec des textes relationnels, afin d'améliorer la capacité de raisonnement relationnel dans les tâches de vision par ordinateur. Toutefois, freiné par la convergence lente de l'architecture RLIPv1 et par la disponibilité limitée des données existantes de graphes de scènes, le passage à grande échelle de RLIPv1 s'avère difficile. Dans cet article, nous proposons RLIPv2, un modèle à convergence rapide qui permet d'étendre le pré-entraînement relationnel à des données de graphes de scènes à grande échelle étiquetées de manière pseudo-automatique. Pour permettre une mise à l'échelle rapide, RLIPv2 introduit une fusion asymétrique langage-image (ALIF), un mécanisme qui favorise une fusion croisée entre modalités plus précoce et plus profonde, grâce à des couches d'encodage linguistique épaissies (sparsifiées). L'ALIF permet d'atteindre des performances comparables ou supérieures à celles de RLIPv1, en un temps de pré-entraînement et de fin-tuning significativement réduit. Pour obtenir des données de graphes de scènes à grande échelle, nous étendons les jeux de données de détection d'objets en y ajoutant des étiquettes relationnelles libres grâce à l'introduction d'un générateur de légendes (par exemple, BLIP) et d'un taggeur relationnel spécialement conçu. Le taggeur relationnel attribue les textes relationnels générés par BLIP aux paires de régions, permettant ainsi un pré-entraînement relationnel à plus grande échelle. À travers des expériences étendues sur la détection d'interactions homme-objet et la génération de graphes de scènes, RLIPv2 atteint des performances de pointe sur trois benchmarks, dans des scénarios de fine-tuning complet, de few-shot et de zero-shot. Notamment, le modèle RLIPv2 le plus volumineux atteint 23,29 mAP sur HICO-DET sans aucun fine-tuning, 32,22 mAP avec seulement 1 % des données, et 45,09 mAP avec 100 % des données. Le code et les modèles sont disponibles publiquement à l'adresse suivante : https://github.com/JacobYuan7/RLIPv2.

RLIPv2 : Une mise à l’échelle rapide de la préformation relationnelle langage-image | Articles de recherche récents | HyperAI