HyperAIHyperAI
il y a 2 mois

FaSTA^* : Agent de Trajectoire Rapide-Lente avec Extraction de Sous-routines pour une Édition d'Images Multitour Efficace

Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou
FaSTA^* : Agent de Trajectoire Rapide-Lente avec Extraction de Sous-routines pour une Édition d'Images Multitour Efficace
Résumé

Nous développons un agent neurosymbolique à faible coût pour répondre aux tâches complexes de retouche d'images en plusieurs étapes, telles que « Détecter le banc dans l'image tout en le recolorant en rose. En outre, supprimer le chat pour une vue plus claire et recolorer le mur en jaune. » Cet agent combine la planification rapide et de haut niveau des sous-tâches par les grands modèles linguistiques (LLMs) avec la recherche lente, précise, utilisant des outils et locale A(^) pour chaque sous-tâche afin de trouver un chemin d'outils à faible coût -- une séquence d'appels à des outils d'IA. Pour réduire le coût de la recherche A(^) sur des sous-tâches similaires, nous effectuons un raisonnement inductif sur les chemins d'outils précédemment réussis via les LLMs afin d'extraire et de raffiner continuellement des sous-routines fréquemment utilisées, et de les réutiliser comme nouveaux outils pour les tâches futures dans un processus de planification rapide-lente adaptative, où les sous-routines de haut niveau sont explorées en premier lieu, et seulement lorsqu'elles échouent, la recherche lente A(^) est activée. Les sous-routines symboliques réutilisables permettent une économie considérable du coût d'exploration pour les mêmes types de sous-tâches appliqués à des images similaires, ce qui donne naissance à un agent de cheminement rapide-lente "FaSTA(^)" : une planification rapide des sous-tâches suivie par une tentative de sélection de sous-routines basée sur des règles pour chaque sous-tâche est réalisée au préalable par les LLMs, qui devrait couvrir la plupart des tâches, tandis que la recherche lente A(^) n'est déclenchée que pour des sous-tâches nouvelles et complexes. En comparaison avec les approches récentes de retouche d'images, nous montrons que FaSTA(^) est significativement plus efficace sur le plan computationnel tout en restant compétitif avec la référence actuelle en termes de taux de succès.

FaSTA^* : Agent de Trajectoire Rapide-Lente avec Extraction de Sous-routines pour une Édition d'Images Multitour Efficace | Articles de recherche récents | HyperAI