HyperAIHyperAI
il y a 9 jours

ViperGPT : Inférence visuelle via exécution Python pour le raisonnement

Dídac Surís, Sachit Menon, Carl Vondrick
ViperGPT : Inférence visuelle via exécution Python pour le raisonnement
Résumé

Répondre à des requêtes visuelles est une tâche complexe qui nécessite à la fois un traitement visuel et un raisonnement. Les modèles end-to-end, qui constituent l'approche dominante pour cette tâche, ne distinguent pas explicitement ces deux composantes, ce qui limite leur interprétabilité et leur capacité à généraliser. L'apprentissage de programmes modulaires apparaît comme une alternative prometteuse, mais s'est révélé difficile en raison de la difficulté à apprendre simultanément les programmes et les modules. Nous introduisons ViperGPT, un cadre qui exploite des modèles de génération de code pour composer des modèles vision-langage en sous-programmes afin de produire une réponse à toute requête. ViperGPT utilise une API fournie pour accéder aux modules disponibles, puis les compose en générant du code Python exécuté ultérieurement. Cette approche simple ne nécessite aucune formation supplémentaire et atteint des résultats de pointe sur diverses tâches visuelles complexes.