HyperAIHyperAI
il y a 17 jours

ERNIE-ViL : Représentations vision-langage renforcées par des connaissances à travers des graphes scéniques

Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
ERNIE-ViL : Représentations vision-langage renforcées par des connaissances à travers des graphes scéniques
Résumé

Nous proposons une approche renforcée par des connaissances, ERNIE-ViL, qui intègre des connaissances structurées extraites à partir de graphes de scènes afin d’apprendre des représentations conjointes vision-langage. ERNIE-ViL vise à établir des connexions sémantiques détaillées (objets, attributs des objets et relations entre objets) entre la vision et le langage, qui sont essentielles aux tâches multimodales vision-langage. En exploitant les graphes de scènes des scènes visuelles, ERNIE-ViL conçoit des tâches de prédiction de graphes de scènes, à savoir des tâches de prédiction d’objets, d’attributs et de relations, durant la phase de pré-entraînement. Plus précisément, ces tâches de prédiction sont mises en œuvre en prédisant des nœuds de types différents dans le graphe de scène extrait à partir de la phrase. Ainsi, ERNIE-ViL peut apprendre des représentations conjointes caractérisant l’alignement des sémantiques détaillées entre la vision et le langage. Après pré-entraînement sur de grands jeux de données d’images et de textes alignés, nous validons l’efficacité d’ERNIE-ViL sur cinq tâches downstream multimodales. ERNIE-ViL atteint des performances de pointe sur toutes ces tâches et occupe la première place au classement VCR, avec une amélioration absolue de 3,7 %.