VinVL : Repenser les représentations visuelles dans les modèles vision-langage

Cet article présente une étude détaillée visant à améliorer les représentations visuelles pour les tâches vision-langage (VL), et développe un modèle amélioré de détection d'objets afin de fournir des représentations centrées sur les objets au sein des images. Contrairement au modèle le plus largement utilisé, le modèle bottom-up and top-down \cite{anderson2018bottom}, le nouveau modèle est plus volumineux, mieux conçu pour les tâches VL, et pré-entraîné sur des corpus d'apprentissage bien plus importants, combinant plusieurs jeux de données publiques annotés pour la détection d'objets. Il est donc capable de générer des représentations d'une plus grande diversité d'objets visuels et de concepts. Alors que les recherches antérieures se sont principalement concentrées sur l'amélioration du modèle de fusion vision-langage, en laissant le modèle de détection d'objets inchangé, nous montrons que les caractéristiques visuelles jouent un rôle fondamental dans les modèles VL. Dans nos expériences, nous utilisons les caractéristiques visuelles produites par le nouveau modèle de détection d'objets comme entrée dans un modèle de fusion VL basé sur Transformer, \oscar \cite{li2020oscar}, et appliquons une approche améliorée \short\ pour pré-entraîner le modèle VL et le fine-tuner sur une large gamme de tâches VL en aval. Nos résultats démontrent que les nouvelles caractéristiques visuelles améliorent significativement les performances sur l'ensemble des tâches VL, établissant de nouveaux records mondiaux sur sept benchmarks publics. Nous rendrons le nouveau modèle de détection d'objets disponible au public.