HyperAIHyperAI

Command Palette

Search for a command to run...

VQA Plug-and-Play : VQA sans apprentissage en combinant des grands modèles préentraînés avec zéro entraînement

Anthony Meng Huat Tiong Junnan Li Boyang Li Silvio Savarese Steven C.H. Hoi

Résumé

La réponse visuelle à des questions (VQA) est une caractéristique distinctive de la raisonnement visuel et linguistique, et constitue une tâche difficile dans le cadre du zéro-shot learning. Nous proposons Plug-and-Play VQA (PNP-VQA), un cadre modulaire pour la réponse visuelle à des questions en zéro-shot. Contrairement à la plupart des travaux existants, qui nécessitent une adaptation importante des modèles de langage préentraînés (PLMs) pour la modalité visuelle, PNP-VQA n'exige aucun entraînement supplémentaire des PLMs. Au lieu de cela, nous suggérons d'utiliser le langage naturel et l'interprétation du réseau comme représentation intermédiaire qui relie les modèles préentraînés entre eux. Nous générons d'abord des légendes d'images informatives guidées par la question, puis transmettons ces légendes à un PLM en tant que contexte pour répondre aux questions. Dépassant les méthodes basées sur l'entraînement end-to-end, PNP-VQA obtient des résultats de pointe sur VQAv2 et GQA en zéro-shot. Avec 11 milliards de paramètres, il surpassse le modèle Flamingo doté de 80 milliards de paramètres de 8,5 % sur VQAv2. Avec 738 millions de paramètres PLM, PNP-VQA réalise une amélioration de 9,1 % sur GQA par rapport au FewVLM avec 740 millions de paramètres PLM. Le code est disponible à l'adresse suivante : https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp