HyperAIHyperAI

Command Palette

Search for a command to run...

ImageBERT : Pré-entraînement intermodale avec des données image-texte à grande échelle faiblement supervisées

Di Qi; Lin Su; Jia Song; Edward Cui; Taroon Bharti; Arun Sacheti

Résumé

Dans cet article, nous présentons un nouveau modèle pré-entraîné de vision-langue -- ImageBERT -- pour l'embedding conjoint d'images et de texte. Notre modèle est basé sur l'architecture Transformer, qui prend en entrée des modalités différentes et modélise leurs relations. Le modèle est pré-entraîné simultanément sur quatre tâches : Modélisation de Langage Masquée (MLM), Classification d'Objets Masqués (MOC), Régression des Caractéristiques Régionales Masquées (MRFR) et Appariement Image-Texte (ITM). Pour améliorer encore la qualité du pré-entraînement, nous avons collecté un jeu de données Large-scale weAk-supervised Image-Text (LAIT) à partir du Web. Nous pré-entraînons d'abord le modèle sur ce jeu de données, puis effectuons une deuxième phase de pré-entraînement sur les légendes conceptuelles et les légendes SBU. Nos expériences montrent que la stratégie de pré-entraînement multistage surpasses celle du pré-entraînement monostage. Nous avons également affiné et évalué notre modèle ImageBERT pré-entraîné sur des tâches de recherche d'images et de recherche de texte, obtenant ainsi des résultats nouveaux et inégalés sur les jeux de données MSCOCO et Flickr30k.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp