HyperAIHyperAI

Command Palette

Search for a command to run...

Voir au-delà de la boîte : Pré-entraînement bout-en-bout pour l'apprentissage des représentations vision-langage

Zhicheng Huang Zhaoyang Zeng Yupan Huang Bei Liu Dongmei Fu Jianlong Fu

Résumé

Nous étudions l'apprentissage conjoint du réseau de neurones convolutif (CNN) et de l'architecte Transformer pour le préentraînement vision-langage (VLPT), dont l'objectif est d'apprendre des alignements entre modalités à partir de millions de paires image-texte. Les approches les plus avancées extraient d'abord des régions image pertinentes, puis les alignent progressivement avec des mots. Toutefois, les caractéristiques visuelles basées sur des régions représentent généralement des parties d'une image, ce qui rend difficile pour les modèles vision-langage existants de comprendre pleinement les sémantiques à partir de langages naturels appariés. Dans cet article, nous proposons SOHO — « See Out of tHe bOx » — un modèle qui prend une image entière en entrée et apprend des représentations vision-langage de manière end-to-end. Contrairement aux approches basées sur des régions, SOHO n'a pas besoin d'étiquettes de boîtes englobantes, ce qui permet une inférence jusqu'à 10 fois plus rapide. En particulier, SOHO apprend à extraire des caractéristiques visuelles à la fois complètes et compactes grâce à un dictionnaire visuel (VD), qui favorise la compréhension cross-modale. Le VD est conçu pour représenter des abstractions visuelles cohérentes associées à des significations similaires. Il est mis à jour dynamiquement et intégré à notre nouvelle tâche de préentraînement, appelée Masked Visual Modeling (MVM). Nous menons des expériences sur quatre tâches vision-langage bien établies, selon des configurations standards de VLPT. En particulier, SOHO obtient des gains absolus de 2,0 % sur le score R@1 pour la recherche textuelle sur MSCOCO (test split 5k), de 1,5 % en précision sur le split test-P de NLVR², et de 6,7 % en précision sur le split test de SNLI-VE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp