HyperAIHyperAI

Command Palette

Search for a command to run...

VinVL : Repenser les représentations visuelles dans les modèles vision-langage

Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao

Résumé

Cet article présente une étude détaillée visant à améliorer les représentations visuelles pour les tâches vision-langage (VL), et développe un modèle amélioré de détection d'objets afin de fournir des représentations centrées sur les objets au sein des images. Contrairement au modèle le plus largement utilisé, le modèle bottom-up and top-down \cite{anderson2018bottom}, le nouveau modèle est plus volumineux, mieux conçu pour les tâches VL, et pré-entraîné sur des corpus d'apprentissage bien plus importants, combinant plusieurs jeux de données publiques annotés pour la détection d'objets. Il est donc capable de générer des représentations d'une plus grande diversité d'objets visuels et de concepts. Alors que les recherches antérieures se sont principalement concentrées sur l'amélioration du modèle de fusion vision-langage, en laissant le modèle de détection d'objets inchangé, nous montrons que les caractéristiques visuelles jouent un rôle fondamental dans les modèles VL. Dans nos expériences, nous utilisons les caractéristiques visuelles produites par le nouveau modèle de détection d'objets comme entrée dans un modèle de fusion VL basé sur Transformer, \oscar \cite{li2020oscar}, et appliquons une approche améliorée \short\ pour pré-entraîner le modèle VL et le fine-tuner sur une large gamme de tâches VL en aval. Nos résultats démontrent que les nouvelles caractéristiques visuelles améliorent significativement les performances sur l'ensemble des tâches VL, établissant de nouveaux records mondiaux sur sept benchmarks publics. Nous rendrons le nouveau modèle de détection d'objets disponible au public.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp