HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Comment la reformulation d'entrée peut-elle améliorer la précision de l'utilisation des outils dans un environnement dynamique complexe ? Une étude sur $τ$-bench

Venkatesh Mishra Amir Saeidi Satyam Raj Mutsumi Nakamura Jayanth Srinivasa Gaowen Liu Ali Payani Chitta Baral

Comment la reformulation d'entrée peut-elle améliorer la précision de l'utilisation des outils dans un environnement dynamique complexe ? Une étude sur $τ$-bench

Résumé

Les progrès récents dans les capacités de raisonnement et de planification des grands modèles linguistiques (LLM) ont permis de démontrer leur potentiel en tant qu’agents autonomes capables d’utiliser des outils dans des environnements dynamiques. Toutefois, dans des contextes conversationnels à plusieurs tours tels que $τ$-bench, ces agents peinent souvent à maintenir un raisonnement cohérent, à respecter des politiques spécifiques au domaine, ou à extraire correctement des informations sur de longues séquences d’appels d’outils et de dialogues. Afin de capturer et de corriger ces échecs, nous menons une analyse manuelle approfondie des erreurs courantes observées dans les trajectoires conversationnelles. Nous expérimentons ensuite diverses reformulations des entrées adressées à l’agent d’appel d’outils afin d’améliorer sa prise de décision. Enfin, nous proposons le cadre IRMA (Input-Reformulation Multi-Agent), qui reformule automatiquement les requêtes utilisateur en y intégrant des règles domaines pertinentes et des suggestions d’outils, afin de permettre à l’agent d’appel d’outils de se concentrer efficacement. Les résultats montrent que IRMA surpasser largement ReAct, Function Calling et Self-Reflection de respectivement 16,1 %, 12,7 % et 19,1 % en termes de score global pass^5. Ces résultats mettent en évidence une fiabilité et une cohérence supérieures de IRMA par rapport aux autres méthodes dans des environnements dynamiques.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp