PEVL : Amélioration de la position lors du pré-entraînement et de l'ajustement par suggestion pour les modèles vision-langage

Le pré-entraînement vision-langage (VLP) a montré des performances impressionnantes sur une large gamme de tâches multimodales, où les modèles VLP sans détecteurs d'objets deviennent la norme en raison de leur supériorité en termes d'efficacité computationnelle et de performance compétitive. Cependant, l'élimination des détecteurs d'objets prive également ces modèles VLP de la capacité à modéliser explicitement les objets, ce qui est essentiel pour diverses tâches vision-langage (VL) sensibles à la position, telles que la compréhension des expressions de référence et le raisonnement visuel par le sens commun. Pour relever ce défi, nous introduisons PEVL, qui améliore le pré-entraînement et l'ajustement des prompts des modèles VLP grâce à une modélisation explicite des positions d'objets. Plus précisément, PEVL reformule les positions discrétisées des objets et le langage dans un cadre unifié de modélisation linguistique, ce qui facilite l'alignement explicite VL lors du pré-entraînement et permet également un ajustement flexible des prompts pour diverses tâches en aval. Nous montrons que PEVL permet aux modèles VLP sans détecteur d'atteindre des performances de pointe sur les tâches sensibles à la position, comme la compréhension des expressions de référence et l'ancrage de phrases, tout en améliorant également les performances sur les tâches insensibles à la position avec des entrées ancrées. Nous mettons les données et le code de cet article librement disponibles au public sur https://github.com/thunlp/PEVL.