HyperAIHyperAI

Command Palette

Search for a command to run...

MemLens : Évaluation des modèles de vision-langage à grande échelle pour la mémoire multimodale à long terme

Résumé

Le mémoire est essentielle pour les grands modèles de vision et de langage (LVLM) afin de gérer des interactions longues et multimodales, deux axes méthodologiques offrant cette capacité : les LVLM à contexte long et les agents augmentés de mémoire. Cependant, aucun benchmark existant ne propose une comparaison systématique des deux approches sur des questions nécessitant véritablement des preuves multimodales. Pour combler cette lacune, nous présentons MEMLENS, un benchmark complet dédié à la mémoire dans les conversations multimodales multi-sessions, comprenant 789 questions couvrant cinq capacités mémorielles (extraction d’informations, raisonnement multi-sessions, raisonnement temporel, mise à jour des connaissances et refus de réponse) à quatre longueurs de contexte standard (32K-256K tokens) selon un schéma de comptage des tokens intermodal. Une étude d’ablation par suppression des images confirme que la résolution de MEMLENS exige des preuves visuelles : la suppression des images de preuve fait chuter la précision de deux LVLM de pointe en dessous de 2 % pour 80,4 % des questions dont les preuves incluent des images. L’évaluation de 27 LVLM et 7 agents augmentés de mémoire révèle que les LVLM à contexte long atteignent une précision élevée sur des contextes courts grâce à un ancrage visuel direct, mais voient leurs performances se dégrader à mesure que les conversations s’allongent, tandis que les agents à mémoire sont stables face à la longueur du contexte mais perdent en fidélité visuelle sous l’effet de la compression lors du stockage. Le raisonnement multi-sessions plafonne la plupart des systèmes en dessous de 30 %, et aucune des deux approches seule ne permet de résoudre la tâche. Ces résultats motivent l’adoption d’architectures hybrides combinant l’attention à contexte long avec une récupération multimodale structurée. Notre code source est disponible à l’adresse https://github.com/xrenaf/MEMLENS.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp