HyperAIHyperAI

Command Palette

Search for a command to run...

VisualBERT : Une ligne de base simple et performante pour la vision et le langage

Liunian Harold Li; Mark Yatskar; Da Yin; Cho-Jui Hsieh; Kai-Wei Chang

Résumé

Nous proposons VisualBERT, un cadre simple et flexible pour modéliser une large gamme de tâches combinant la vision et le langage. VisualBERT est composé d'une pile de couches Transformer qui alignent implicitement les éléments d'un texte d'entrée et les régions d'une image associée grâce à l'auto-attention. Nous proposons également deux objectifs de modèle de langage ancrés visuellement pour préformer l'entraînement de VisualBERT sur des données de légendes d'images. Des expériences menées sur quatre tâches combinant la vision et le langage, dont VQA (Visual Question Answering), VCR (Visual Commonsense Reasoning), NLVR2 (Natural Language for Visual Reasoning 2) et Flickr30K, montrent que VisualBERT surpasse ou se compare favorablement aux modèles de pointe tout en étant considérablement plus simple. Une analyse supplémentaire démontre que VisualBERT peut associer des éléments du langage à des régions d'image sans aucune supervision explicite et qu'il est même sensible aux relations syntaxiques, en suivant par exemple les associations entre les verbes et les régions d'image correspondant à leurs arguments.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp