HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 15 jours

HaluMem : Évaluation des hallucinations dans les systèmes de mémoire des agents

Ding Chen Simin Niu Kehang Li Peng Liu Xiangping Zheng Bo Tang Xinchi Li Feiyu Xiong Zhiyu Li

HaluMem : Évaluation des hallucinations dans les systèmes de mémoire des agents

Résumé

Les systèmes de mémoire constituent des composants clés permettant aux systèmes d’intelligence artificielle, tels que les modèles linguistiques à grande échelle (LLM) et les agents IA, d’acquérir un apprentissage à long terme et d’interagir de manière continue. Toutefois, lors du stockage et de la récupération de la mémoire, ces systèmes présentent fréquemment des hallucinations de mémoire, incluant des fabrications, des erreurs, des conflits et des omissions. Les évaluations existantes des hallucinations de mémoire se limitent principalement à des tâches de réponse à des questions en bout à bout, ce qui rend difficile l’identification de l’étape opérationnelle au sein du système de mémoire où se produisent ces hallucinations. Pour remédier à ce défaut, nous introduisons le benchmark HaluMem (HAllucination in Memory Benchmark), le premier benchmark d’évaluation des hallucinations au niveau opérationnel spécifiquement conçu pour les systèmes de mémoire. HaluMem définit trois tâches d’évaluation (extraction de mémoire, mise à jour de mémoire et réponse à des questions sur la mémoire) afin de révéler de manière exhaustive les comportements d’hallucination à travers les différentes étapes opérationnelles de l’interaction. Pour soutenir cette évaluation, nous avons construit deux jeux de données d’interactions humain-IA à orientation utilisateur, respectivement HaluMem-Medium et HaluMem-Long. Chacun contient environ 15 000 points de mémoire et 3 500 questions de types variés. La longueur moyenne des dialogues par utilisateur atteint 1 500 et 2 600 tours, avec des longueurs de contexte dépassant 1 million de tokens, permettant ainsi une évaluation des hallucinations à différentes échelles de contexte et niveaux de complexité des tâches. Des études empiriques fondées sur HaluMem montrent que les systèmes de mémoire existants ont tendance à générer et à accumuler des hallucinations lors des étapes d’extraction et de mise à jour, ce qui entraîne ensuite une propagation d’erreurs vers l’étape de réponse aux questions. Les recherches futures devraient se concentrer sur le développement de mécanismes d’opérations de mémoire interprétables et contraints, capables de supprimer de manière systématique les hallucinations et d’améliorer la fiabilité de la mémoire.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
HaluMem : Évaluation des hallucinations dans les systèmes de mémoire des agents | Articles de recherche | HyperAI