HyperAIHyperAI
il y a 17 jours

HYDRA : Un Hyper Agent pour le Raisonnement Visuel Composant Dynamique

Fucai Ke, Zhixi Cai, Simindokht Jahangard, Weiqing Wang, Pari Delir Haghighi, Hamid Rezatofighi
HYDRA : Un Hyper Agent pour le Raisonnement Visuel Composant Dynamique
Résumé

Les progrès récents dans le raisonnement visuel (VR), en particulier grâce aux grands modèles vision-langage (VLM), sont prometteurs, mais nécessitent l’accès à de grandes bases de données et soulèvent des défis tels que des coûts computationnels élevés et une capacité de généralisation limitée. Les approches de raisonnement visuel compositionnel sont apparues comme des stratégies efficaces ; toutefois, elles s’appuient fortement sur les connaissances du sens commun intégrées dans les grands modèles linguistiques (LLM) pour effectuer la planification, le raisonnement ou les deux, sans tenir compte de l’impact de leurs décisions sur le processus de raisonnement visuel, ce qui peut entraîner des erreurs ou des échecs dans les procédures. Pour relever ces défis, nous introduisons HYDRA, un cadre de raisonnement visuel compositionnel dynamique à plusieurs étapes, conçu pour un raisonnement fiable et progressivement généralisable. HYDRA intègre trois modules essentiels : un planificateur, un agent d’apprentissage par renforcement (RL) agissant comme un contrôleur cognitif, et un raisonneur. Les modules planificateur et raisonneur utilisent un LLM pour générer des échantillons d'instructions et du code exécutable à partir de l'instruction sélectionnée, tandis que l'agent de RL interagit dynamiquement avec ces modules, prenant des décisions de haut niveau sur le choix de l’échantillon d'instruction le plus approprié, sur la base des informations issues de l’état historique stocké via une boucle de rétroaction. Cette architecture adaptable permet à HYDRA d’ajuster ses actions en fonction des retours reçus au cours du processus de raisonnement, conduisant à des sorties de raisonnement plus fiables et améliorant ainsi de manière significative son efficacité globale. Notre cadre atteint des performances de pointe sur diverses tâches de raisonnement visuel, sur quatre jeux de données largement utilisés.