il y a 12 heures

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Résumé

Le mémoire est essentielle pour les grands modèles de vision et de langage (LVLM) afin de gérer des interactions longues et multimodales, deux axes méthodologiques offrant cette capacité : les LVLM à contexte long et les agents augmentés de mémoire. Cependant, aucun benchmark existant ne propose une comparaison systématique des deux approches sur des questions nécessitant véritablement des preuves multimodales. Pour combler cette lacune, nous présentons MEMLENS, un benchmark complet dédié à la mémoire dans les conversations multimodales multi-sessions, comprenant 789 questions couvrant cinq capacités mémorielles (extraction d’informations, raisonnement multi-sessions, raisonnement temporel, mise à jour des connaissances et refus de réponse) à quatre longueurs de contexte standard (32K-256K tokens) selon un schéma de comptage des tokens intermodal. Une étude d’ablation par suppression des images confirme que la résolution de MEMLENS exige des preuves visuelles : la suppression des images de preuve fait chuter la précision de deux LVLM de pointe en dessous de 2 % pour 80,4 % des questions dont les preuves incluent des images. L’évaluation de 27 LVLM et 7 agents augmentés de mémoire révèle que les LVLM à contexte long atteignent une précision élevée sur des contextes courts grâce à un ancrage visuel direct, mais voient leurs performances se dégrader à mesure que les conversations s’allongent, tandis que les agents à mémoire sont stables face à la longueur du contexte mais perdent en fidélité visuelle sous l’effet de la compression lors du stockage. Le raisonnement multi-sessions plafonne la plupart des systèmes en dessous de 30 %, et aucune des deux approches seule ne permet de résoudre la tâche. Ces résultats motivent l’adoption d’architectures hybrides combinant l’attention à contexte long avec une récupération multimodale structurée. Notre code source est disponible à l’adresse https://github.com/xrenaf/MEMLENS.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Discuter sur Discord

il y a 12 heures

Multimodal

Réponse À Des Questions Visuelles

Génération Augmentée Par La Recherche

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Discuter sur Discord

il y a 12 heures

Multimodal

Réponse À Des Questions Visuelles

Génération Augmentée Par La Recherche

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

MemLens : Évaluation des modèles de vision-langage à grande échelle pour la mémoire multimodale à long terme

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MemLens : Évaluation des modèles de vision-langage à grande échelle pour la mémoire multimodale à long terme

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MemLens : Évaluation des modèles de vision-langage à grande échelle pour la mémoire multimodale à long terme

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu