HyperAIHyperAI

Command Palette

Search for a command to run...

GIT : Un Transformateur Image-Vers-Texte Génératif pour la Vision et le Langage

Jianfeng Wang Zhengyuan Yang Xiaowei Hu Linjie Li Kevin Lin Zhe Gan Zicheng Liu Ce Liu Lijuan Wang

Résumé

Dans cet article, nous concevons et entraînons un modèle Transformer génératif image-vers-texte, appelé GIT, afin d’unifier diverses tâches vision-langage telles que la génération de légendes d’images/vidéos et la réponse à des questions. Bien que les modèles génératifs offrent une architecture réseau cohérente entre l’étape de pré-entraînement et celle du fine-tuning, les travaux existants reposent généralement sur des structures complexes (encodeurs/décodateurs uni- ou multi-modaux) et dépendent de modules externes tels que des détecteurs d’objets, des systèmes de tagging ou de la reconnaissance optique de caractères (OCR). Dans GIT, nous simplifions l’architecture en ne conservant qu’un seul encodeur d’image et un seul décodeur de texte, tous deux intégrés dans une seule tâche de modélisation linguistique. Nous augmentons également la taille des données de pré-entraînement ainsi que celle du modèle afin d’améliorer ses performances. Sans recourir à des améliorations supplémentaires, notre modèle établit de nouveaux états de l’art sur 12 benchmarks exigeants, avec un écart significatif. Par exemple, notre modèle dépasse pour la première fois la performance humaine sur TextCaps (138,2 contre 125,5 en CIDEr). En outre, nous proposons une nouvelle méthode de classification d’images et de reconnaissance de texte scénique basée sur la génération, qui obtient des résultats compétitifs sur des benchmarks standards. Le code source est disponible à l’adresse suivante : \url{https://github.com/microsoft/GenerativeImage2Text}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp