HyperAIHyperAI
il y a 17 jours

Pré-entraînement unifié vision-langage pour la génération de légendes d’images et la question-réponse visuelle

Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao
Pré-entraînement unifié vision-langage pour la génération de légendes d’images et la question-réponse visuelle
Résumé

Cet article présente un modèle unifié de pré-entraînement vision-langage (VLP). Ce modèle est qualifié d’unifié en ce sens que : (1) il peut être adapté (fine-tuned) pour des tâches de génération vision-langage (par exemple, la génération de légendes d’images) ou de compréhension vision-langage (par exemple, la réponse à des questions visuelles), et (2) il utilise un réseau transformer à plusieurs couches partagé à la fois pour l’encodage et le décodage, ce qui le distingue de nombreuses méthodes existantes où l’encodeur et le décodeur sont implémentés à l’aide de modèles séparés. Le modèle VLP unifié est pré-entraîné sur un grand volume de paires image-texte en utilisant deux objectifs d’apprentissage non supervisé : la prédiction vision-langage bidirectionnelle et la prédiction vision-langage séquentielle (seq2seq) avec masque. Ces deux tâches ne diffèrent que par le contexte sur lequel la prédiction conditionne. Ce contrôle est assuré par l’utilisation de masques d’attention auto-associative spécifiques pour le réseau transformer partagé. À ce jour, selon nos connaissances, VLP est le premier modèle rapporté à atteindre des résultats de pointe (state-of-the-art) à la fois sur des tâches de génération et de compréhension vision-langage, aussi différentes que la génération de légendes d’images et la réponse à des questions visuelles, sur trois jeux de données de référence exigeants : COCO Captions, Flickr30k Captions et VQA 2.0. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/LuoweiZhou/VLP.

Pré-entraînement unifié vision-langage pour la génération de légendes d’images et la question-réponse visuelle | Articles de recherche récents | HyperAI