REVEAL : Pré-entraînement visuel-langagier augmenté par la récupération avec une mémoire de connaissances multimodales multi-sources

Dans cet article, nous proposons un modèle visuel linguistique augmenté par la récupération (REVEAL) à chaîne complète, qui apprend à encoder des connaissances mondiales dans une mémoire à grande échelle, puis à y récupérer des informations pour répondre à des requêtes exigeant une connaissance approfondie. REVEAL se compose de quatre composants clés : la mémoire, l’encodeur, le récupérateur et le générateur. La mémoire à grande échelle encode diverses sources de connaissances monomodales et multimodales du monde (par exemple, paires image-texte, paires question-réponse, triplets de graphes de connaissances, etc.) à l’aide d’un encodeur unifié. Le récupérateur identifie les entrées de connaissance les plus pertinentes dans la mémoire, tandis que le générateur intègre les connaissances récupérées avec la requête d’entrée afin de produire la sortie. Une innovation majeure de notre approche réside dans le fait que la mémoire, l’encodeur, le récupérateur et le générateur sont tous pré-entraînés de manière end-to-end sur une quantité massive de données. En outre, notre méthode peut exploiter une diversité de sources de connaissances multimodales, ce qui se traduit par des gains significatifs. Nous démontrons que REVEAL atteint des résultats de pointe sur des tâches de réponse à des questions visuelles et de génération de légendes d’images.