Command Palette
Search for a command to run...
MemLens : Évaluation des modèles de vision-langage à grande échelle pour la mémoire multimodale à long terme
MemLens : Évaluation des modèles de vision-langage à grande échelle pour la mémoire multimodale à long terme
Résumé
Le mémoire est essentielle pour les grands modèles de vision et de langage (LVLM) afin de gérer des interactions longues et multimodales, deux axes méthodologiques offrant cette capacité : les LVLM à contexte long et les agents augmentés de mémoire. Cependant, aucun benchmark existant ne propose une comparaison systématique des deux approches sur des questions nécessitant véritablement des preuves multimodales. Pour combler cette lacune, nous présentons MEMLENS, un benchmark complet dédié à la mémoire dans les conversations multimodales multi-sessions, comprenant 789 questions couvrant cinq capacités mémorielles (extraction d’informations, raisonnement multi-sessions, raisonnement temporel, mise à jour des connaissances et refus de réponse) à quatre longueurs de contexte standard (32K-256K tokens) selon un schéma de comptage des tokens intermodal. Une étude d’ablation par suppression des images confirme que la résolution de MEMLENS exige des preuves visuelles : la suppression des images de preuve fait chuter la précision de deux LVLM de pointe en dessous de 2 % pour 80,4 % des questions dont les preuves incluent des images. L’évaluation de 27 LVLM et 7 agents augmentés de mémoire révèle que les LVLM à contexte long atteignent une précision élevée sur des contextes courts grâce à un ancrage visuel direct, mais voient leurs performances se dégrader à mesure que les conversations s’allongent, tandis que les agents à mémoire sont stables face à la longueur du contexte mais perdent en fidélité visuelle sous l’effet de la compression lors du stockage. Le raisonnement multi-sessions plafonne la plupart des systèmes en dessous de 30 %, et aucune des deux approches seule ne permet de résoudre la tâche. Ces résultats motivent l’adoption d’architectures hybrides combinant l’attention à contexte long avec une récupération multimodale structurée. Notre code source est disponible à l’adresse https://github.com/xrenaf/MEMLENS.