il y a 10 heures

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Résumé

Les agents de grands modèles de langage (LLM) ont obtenu de solides performances sur un large éventail de benchmarks, bien que la majorité des évaluations supposent des environnements statiques. En revanche, le déploiement en conditions réelles est intrinsèquement dynamique, ce qui exige que les agents ajustent continuellement leurs connaissances, leurs compétences et leur comportement en fonction d'environnements évolutifs et de conditions de tâche actualisées. Pour combler ce manque, nous introduisons EvoArena, une suite de benchmarks qui modélise les évolutions de l'environnement comme des séquences de mises à jour progressives couvrant les domaines terminal, logiciel et social. Nous proposons par ailleurs EvoMem, un paradigme de mémoire basé sur des patchs qui enregistre l'évolution mémorielle sous forme d'historiques de mises à jour structurés, permettant aux agents de raisonner sur l'évolution de l'environnement à travers les modifications de leur mémoire. Les expériences montrent que les agents actuels éprouvent des difficultés sur EvoArena, atteignant une précision moyenne de 39,6 % sur les domaines terminal, logiciel et de préférence sociale en évolution. EvoMem améliore de manière constante les performances, offrant un gain moyen de 1,5 % sur EvoArena et améliorant également les benchmarks de référence tels que GAIA et LoCoMo de 6,1 % et 4,8 %. Au-delà des tâches individuelles, EvoMem améliore davantage la précision au niveau de la chaîne de 3,7 % sur EvoArena, où la réussite exige de compléter une séquence consécutive de sous-tâches évolutives corrélées. L'analyse mécaniste révèle que EvoMem améliore la capture des preuves au sein de la mémoire, ce qui indique une meilleure préservation des états complets de l'environnement en évolution. Nos résultats soulignent l'importance de modéliser l'évolution tant dans les processus d'évaluation que dans la mémoire afin d'assurer un déploiement fiable des agents.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 10 heures

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 10 heures

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

EvoArena : Suivi de l'évolution de la mémoire pour des agents LLM robustes dans des environnements dynamiques

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

EvoArena : Suivi de l'évolution de la mémoire pour des agents LLM robustes dans des environnements dynamiques

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

EvoArena : Suivi de l'évolution de la mémoire pour des agents LLM robustes dans des environnements dynamiques

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu