il y a 2 mois

VQA Plug-and-Play : VQA sans apprentissage en combinant des grands modèles préentraînés avec zéro entraînement

Tiong, Anthony Meng Huat ; Li, Junnan ; Li, Boyang ; Savarese, Silvio ; Hoi, Steven C. H.

Résumé

La réponse visuelle à des questions (VQA) est une caractéristique distinctive de la raisonnement visuel et linguistique, et constitue une tâche difficile dans le cadre du zéro-shot learning. Nous proposons Plug-and-Play VQA (PNP-VQA), un cadre modulaire pour la réponse visuelle à des questions en zéro-shot. Contrairement à la plupart des travaux existants, qui nécessitent une adaptation importante des modèles de langage préentraînés (PLMs) pour la modalité visuelle, PNP-VQA n'exige aucun entraînement supplémentaire des PLMs. Au lieu de cela, nous suggérons d'utiliser le langage naturel et l'interprétation du réseau comme représentation intermédiaire qui relie les modèles préentraînés entre eux. Nous générons d'abord des légendes d'images informatives guidées par la question, puis transmettons ces légendes à un PLM en tant que contexte pour répondre aux questions. Dépassant les méthodes basées sur l'entraînement end-to-end, PNP-VQA obtient des résultats de pointe sur VQAv2 et GQA en zéro-shot. Avec 11 milliards de paramètres, il surpassse le modèle Flamingo doté de 80 milliards de paramètres de 8,5 % sur VQAv2. Avec 738 millions de paramètres PLM, PNP-VQA réalise une amélioration de 9,1 % sur GQA par rapport au FewVLM avec 740 millions de paramètres PLM. Le code est disponible à l'adresse suivante : https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa