GIT : Un Transformateur Image-Vers-Texte Génératif pour la Vision et le Langage

Dans cet article, nous concevons et entraînons un modèle Transformer génératif image-vers-texte, appelé GIT, afin d’unifier diverses tâches vision-langage telles que la génération de légendes d’images/vidéos et la réponse à des questions. Bien que les modèles génératifs offrent une architecture réseau cohérente entre l’étape de pré-entraînement et celle du fine-tuning, les travaux existants reposent généralement sur des structures complexes (encodeurs/décodateurs uni- ou multi-modaux) et dépendent de modules externes tels que des détecteurs d’objets, des systèmes de tagging ou de la reconnaissance optique de caractères (OCR). Dans GIT, nous simplifions l’architecture en ne conservant qu’un seul encodeur d’image et un seul décodeur de texte, tous deux intégrés dans une seule tâche de modélisation linguistique. Nous augmentons également la taille des données de pré-entraînement ainsi que celle du modèle afin d’améliorer ses performances. Sans recourir à des améliorations supplémentaires, notre modèle établit de nouveaux états de l’art sur 12 benchmarks exigeants, avec un écart significatif. Par exemple, notre modèle dépasse pour la première fois la performance humaine sur TextCaps (138,2 contre 125,5 en CIDEr). En outre, nous proposons une nouvelle méthode de classification d’images et de reconnaissance de texte scénique basée sur la génération, qui obtient des résultats compétitifs sur des benchmarks standards. Le code source est disponible à l’adresse suivante : \url{https://github.com/microsoft/GenerativeImage2Text}.