HyperAIHyperAI
il y a 2 mois

ImageBERT : Pré-entraînement intermodale avec des données image-texte à grande échelle faiblement supervisées

Di Qi; Lin Su; Jia Song; Edward Cui; Taroon Bharti; Arun Sacheti
ImageBERT : Pré-entraînement intermodale avec des données image-texte à grande échelle faiblement supervisées
Résumé

Dans cet article, nous présentons un nouveau modèle pré-entraîné de vision-langue -- ImageBERT -- pour l'embedding conjoint d'images et de texte. Notre modèle est basé sur l'architecture Transformer, qui prend en entrée des modalités différentes et modélise leurs relations. Le modèle est pré-entraîné simultanément sur quatre tâches : Modélisation de Langage Masquée (MLM), Classification d'Objets Masqués (MOC), Régression des Caractéristiques Régionales Masquées (MRFR) et Appariement Image-Texte (ITM). Pour améliorer encore la qualité du pré-entraînement, nous avons collecté un jeu de données Large-scale weAk-supervised Image-Text (LAIT) à partir du Web. Nous pré-entraînons d'abord le modèle sur ce jeu de données, puis effectuons une deuxième phase de pré-entraînement sur les légendes conceptuelles et les légendes SBU. Nos expériences montrent que la stratégie de pré-entraînement multistage surpasses celle du pré-entraînement monostage. Nous avons également affiné et évalué notre modèle ImageBERT pré-entraîné sur des tâches de recherche d'images et de recherche de texte, obtenant ainsi des résultats nouveaux et inégalés sur les jeux de données MSCOCO et Flickr30k.