HyperAIHyperAI
il y a 2 mois

Position-guidée par le texte pour l'entraînement préliminaire vision-langue

Alex Jinpeng Wang; Pan Zhou; Mike Zheng Shou; Shuicheng Yan
Position-guidée par le texte pour l'entraînement préliminaire vision-langue
Résumé

Le pré-entraînement Vision-Langage (VLP) a montré des capacités prometteuses pour aligner les paires d'images et de texte, facilitant une large variété de tâches d'apprentissage intermodal. Cependant, nous constatons que les modèles VLP manquent souvent de la capacité d'ancrage visuel/localisation, qui est cruciale pour de nombreuses tâches en aval telles que le raisonnement visuel. Dans ce travail, nous proposons un nouveau paradigme de Position-guidée par Texte (PTP) pour améliorer l'aptitude à l'ancrage visuel des modèles intermodaux entraînés avec VLP. Plus précisément, lors de la phase VLP, PTP divise l'image en $N \times N$ blocs et identifie les objets dans chaque bloc grâce au détecteur d'objets largement utilisé dans le VLP. Il reformule ensuite la tâche d'ancrage visuel en un problème de complétion de phrase à partir d'un PTP, en encourageant le modèle à prédire les objets dans les blocs donnés ou à régresser les blocs d'un objet donné, par exemple en remplissant « P » ou « O » dans un PTP « Le bloc P contient un O ». Ce mécanisme améliore la capacité d'ancrage visuel des modèles VLP et leur permet ainsi de mieux traiter diverses tâches en aval. En intégrant PTP à plusieurs cadres VLP de pointe, nous observons des améliorations significatives et cohérentes sur des architectures représentatives de modèles d'apprentissage intermodal et plusieurs benchmarks, comme une amélioration moyenne du rappel@1 (+4,8) pour la récupération zero-shot Flickr30K avec ViLT \cite{vilt}, et une augmentation du score CIDEr (+5,3) pour la génération de légendes COCO avec le modèle BLIP \cite{blip}. De plus, PTP obtient des résultats comparables aux méthodes basées sur des détecteurs d'objets tout en étant beaucoup plus rapide en inférence car il n'utilise pas son détecteur d'objets pendant cette phase, contrairement aux méthodes précédentes. Notre code et nos poids pré-entraînés seront mis à disposition sur \url{https://github.com/sail-sg/ptp}.

Position-guidée par le texte pour l'entraînement préliminaire vision-langue | Articles de recherche récents | HyperAI