HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 10 heures
Agent
LLM

EvoArena : Suivi de l'évolution de la mémoire pour des agents LLM robustes dans des environnements dynamiques

Résumé

Les agents de grands modèles de langage (LLM) ont obtenu de solides performances sur un large éventail de benchmarks, bien que la majorité des évaluations supposent des environnements statiques. En revanche, le déploiement en conditions réelles est intrinsèquement dynamique, ce qui exige que les agents ajustent continuellement leurs connaissances, leurs compétences et leur comportement en fonction d'environnements évolutifs et de conditions de tâche actualisées. Pour combler ce manque, nous introduisons EvoArena, une suite de benchmarks qui modélise les évolutions de l'environnement comme des séquences de mises à jour progressives couvrant les domaines terminal, logiciel et social. Nous proposons par ailleurs EvoMem, un paradigme de mémoire basé sur des patchs qui enregistre l'évolution mémorielle sous forme d'historiques de mises à jour structurés, permettant aux agents de raisonner sur l'évolution de l'environnement à travers les modifications de leur mémoire. Les expériences montrent que les agents actuels éprouvent des difficultés sur EvoArena, atteignant une précision moyenne de 39,6 % sur les domaines terminal, logiciel et de préférence sociale en évolution. EvoMem améliore de manière constante les performances, offrant un gain moyen de 1,5 % sur EvoArena et améliorant également les benchmarks de référence tels que GAIA et LoCoMo de 6,1 % et 4,8 %. Au-delà des tâches individuelles, EvoMem améliore davantage la précision au niveau de la chaîne de 3,7 % sur EvoArena, où la réussite exige de compléter une séquence consécutive de sous-tâches évolutives corrélées. L'analyse mécaniste révèle que EvoMem améliore la capture des preuves au sein de la mémoire, ce qui indique une meilleure préservation des états complets de l'environnement en évolution. Nos résultats soulignent l'importance de modéliser l'évolution tant dans les processus d'évaluation que dans la mémoire afin d'assurer un déploiement fiable des agents.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp