il y a 16 jours

Voir au-delà de la boîte : Pré-entraînement bout-en-bout pour l'apprentissage des représentations vision-langage

Zhicheng Huang, Zhaoyang Zeng, Yupan Huang, Bei Liu, Dongmei Fu, Jianlong Fu

Résumé

Nous étudions l'apprentissage conjoint du réseau de neurones convolutif (CNN) et de l'architecte Transformer pour le préentraînement vision-langage (VLPT), dont l'objectif est d'apprendre des alignements entre modalités à partir de millions de paires image-texte. Les approches les plus avancées extraient d'abord des régions image pertinentes, puis les alignent progressivement avec des mots. Toutefois, les caractéristiques visuelles basées sur des régions représentent généralement des parties d'une image, ce qui rend difficile pour les modèles vision-langage existants de comprendre pleinement les sémantiques à partir de langages naturels appariés. Dans cet article, nous proposons SOHO — « See Out of tHe bOx » — un modèle qui prend une image entière en entrée et apprend des représentations vision-langage de manière end-to-end. Contrairement aux approches basées sur des régions, SOHO n'a pas besoin d'étiquettes de boîtes englobantes, ce qui permet une inférence jusqu'à 10 fois plus rapide. En particulier, SOHO apprend à extraire des caractéristiques visuelles à la fois complètes et compactes grâce à un dictionnaire visuel (VD), qui favorise la compréhension cross-modale. Le VD est conçu pour représenter des abstractions visuelles cohérentes associées à des significations similaires. Il est mis à jour dynamiquement et intégré à notre nouvelle tâche de préentraînement, appelée Masked Visual Modeling (MVM). Nous menons des expériences sur quatre tâches vision-langage bien établies, selon des configurations standards de VLPT. En particulier, SOHO obtient des gains absolus de 2,0 % sur le score R@1 pour la recherche textuelle sur MSCOCO (test split 5k), de 1,5 % en précision sur le split test-P de NLVR², et de 6,7 % en précision sur le split test de SNLI-VE.