HyperAIHyperAI

Command Palette

Search for a command to run...

ViperGPT : Inférence visuelle via exécution Python pour le raisonnement

Dídac Surís Sachit Menon Carl Vondrick

Résumé

Répondre à des requêtes visuelles est une tâche complexe qui nécessite à la fois un traitement visuel et un raisonnement. Les modèles end-to-end, qui constituent l'approche dominante pour cette tâche, ne distinguent pas explicitement ces deux composantes, ce qui limite leur interprétabilité et leur capacité à généraliser. L'apprentissage de programmes modulaires apparaît comme une alternative prometteuse, mais s'est révélé difficile en raison de la difficulté à apprendre simultanément les programmes et les modules. Nous introduisons ViperGPT, un cadre qui exploite des modèles de génération de code pour composer des modèles vision-langage en sous-programmes afin de produire une réponse à toute requête. ViperGPT utilise une API fournie pour accéder aux modules disponibles, puis les compose en générant du code Python exécuté ultérieurement. Cette approche simple ne nécessite aucune formation supplémentaire et atteint des résultats de pointe sur diverses tâches visuelles complexes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ViperGPT : Inférence visuelle via exécution Python pour le raisonnement | Articles | HyperAI