哈佛 : External feedback essentiel pour une gestion efficace de la mémoire des agents intelligents
Récemment, les modèles de grande taille ont permis le développement de nombreux agents intelligents interactifs, capables de montrer un potentiel remarquable dans des domaines comme la génération de code, l'autopilotage ou l'assistance personnelle. Ces agents doivent posséder une forme de mémoire similaire à celle des humains pour apprendre continuellement et améliorer leurs performances. En effet, ils doivent enregistrer et rappeler les entrées et sorties des tâches passées afin de mieux gérer les nouvelles situations. Cependant, les modules de mémoire utilisés par ces agents sont généralement conçus pour des tâches spécifiques : par exemple, un agent d'autopilotage stocke des données sur les trajectoires et l'état du véhicule, un agent de génération de code conserve des fragments de code, tandis qu'un agent d'assistance personnelle s'efforce de résumer les conversations. Cette approche fragmentée et orientée tâche rend complexe la recherche de lois ou de principes généraux pour la gestion de la mémoire. C'est dans ce contexte que le doctorant de l'Université de Harvard, Xidi Xiong, ancien étudiant de l'Université d'Illinois à Urbana-Champaign, et son équipe ont décidé de revenir aux opérations fondamentales de la gestion de la mémoire : l'ajout et la suppression. Leur objectif était de comprendre comment ces deux opérations peuvent être optimisées pour améliorer les performances des agents sur le long terme. Contrairement aux recherches antérieures axées sur des mécanismes complexes, leur approche s'est concentrée sur les bases. En étudiant différents niveaux de précision des retours externes utilisés comme critères pour ces opérations, les chercheurs ont identifié trois phénomènes clés. Le premier est le phénomène de suivi d'expérience (Experience-Following), où l'agent tend à reproduire les sorties des tâches historiques similaires, indépendamment de leur qualité. Le second est l'effet de propagation des erreurs (Error Propagation), qui survient lorsque des résultats de tâches de mauvaise qualité sont stockés, entraînant des erreurs cumulatives dans les décisions futures. Le troisième est le phénomène de désalignement de la relecture d'expérience (Misaligned Memory Replay), où même des informations correctes peuvent nuire à l'agent si elles ne correspondent pas au contexte actuel ou si elles sont obsolètes. Ces découvertes soulignent l'importance cruciale d'une feedback externe précis et fiable dans la gestion de la mémoire. Sans ce type de feedback, les systèmes de mémoire peuvent devenir un obstacle plutôt qu'un atout pour les performances à long terme des agents. L'équipe espère que cette recherche incitera davantage d'études sur les mécanismes généraux des agents basés sur des modèles de grande taille, et qu'elle fournira des bases empiriques utiles pour la conception future de leurs modules de mémoire. Dans le cadre de cette étude, Xiong a expliqué à DeepTech que lui et son collègue, Zhen Xiang, co-auteur principal et désormais professeur à l'Université de Géorgie, cherchaient une solution universelle à la gestion de la mémoire. Initialement, ils avaient testé plusieurs approches complexes, mais ils ont rapidement constaté que la variété des tâches rendait difficile l'élaboration d'une solution véritablement générale. Ils ont donc opté pour une approche plus simple, en se concentrant sur les opérations de base. Pour valider leur hypothèse, ils ont développé un cadre expérimental unifié, testé sur plusieurs agents dans des domaines variés, tels que la santé, l'autopilotage ou la sécurité des objets connectés. Les résultats de ces expériences ont confirmé les trois phénomènes identifiés, et ont permis de mieux comprendre le rôle clé des retours externes dans la gestion de la mémoire. Cependant, Xiong a également souligné les coûts élevés liés à l'utilisation de modèles comme GPT-4o, qui nécessitent de nombreuses ressources pour exécuter des milliers de tâches. Cela met en lumière la difficulté de ces recherches. Leurs conclusions ont été publiées sur arXiv sous le titre « How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior », avec Xiong comme premier auteur.