HyperAIHyperAI

Command Palette

Search for a command to run...

REVEAL : Pré-entraînement visuel-langagier augmenté par la récupération avec une mémoire de connaissances multimodales multi-sources

Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi

Résumé

Dans cet article, nous proposons un modèle visuel linguistique augmenté par la récupération (REVEAL) à chaîne complète, qui apprend à encoder des connaissances mondiales dans une mémoire à grande échelle, puis à y récupérer des informations pour répondre à des requêtes exigeant une connaissance approfondie. REVEAL se compose de quatre composants clés : la mémoire, l’encodeur, le récupérateur et le générateur. La mémoire à grande échelle encode diverses sources de connaissances monomodales et multimodales du monde (par exemple, paires image-texte, paires question-réponse, triplets de graphes de connaissances, etc.) à l’aide d’un encodeur unifié. Le récupérateur identifie les entrées de connaissance les plus pertinentes dans la mémoire, tandis que le générateur intègre les connaissances récupérées avec la requête d’entrée afin de produire la sortie. Une innovation majeure de notre approche réside dans le fait que la mémoire, l’encodeur, le récupérateur et le générateur sont tous pré-entraînés de manière end-to-end sur une quantité massive de données. En outre, notre méthode peut exploiter une diversité de sources de connaissances multimodales, ce qui se traduit par des gains significatifs. Nous démontrons que REVEAL atteint des résultats de pointe sur des tâches de réponse à des questions visuelles et de génération de légendes d’images.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp