il y a 6 jours

Voir, écouter, se souvenir et raisonner : un agent multimodal doté d'une mémoire à long terme

Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li

Résumé

Nous introduisons M3-Agent, un nouveau cadre d’agent multimodal doté d’une mémoire à long terme. À l’instar des êtres humains, M3-Agent traite des entrées visuelles et auditives en temps réel afin de construire et de mettre à jour sa mémoire à long terme. Au-delà de la mémoire épisodique, il développe également une mémoire sémantique, lui permettant d’accumuler progressivement des connaissances sur le monde. Sa mémoire est organisée selon une structure centrée sur les entités et multimodale, ce qui favorise une compréhension plus profonde et plus cohérente de l’environnement. Face à une instruction, M3-Agent effectue de manière autonome un raisonnement itératif multi-tours et extrait des informations pertinentes depuis sa mémoire pour accomplir la tâche. Pour évaluer l’efficacité de la mémoire et le raisonnement fondé sur la mémoire dans les agents multimodaux, nous avons développé M3-Bench, un nouveau benchmark pour la réponse à des questions sur des vidéos longues. M3-Bench comprend 100 vidéos réelles nouvellement enregistrées, capturées depuis la perspective d’un robot (M3-Bench-robot), ainsi que 929 vidéos issues d’internet couvrant divers scénarios (M3-Bench-web). Nous avons annoté des paires question-réponse conçues pour tester des capacités clés essentielles aux applications d’agents, telles que la compréhension des humains, l’extraction de connaissances générales et le raisonnement transmodal. Les résultats expérimentaux montrent que M3-Agent, entraîné par apprentissage par renforcement, surpasser le meilleur modèle de référence — un agent basé sur des instructions utilisant Gemini-1.5-pro et GPT-4o — en atteignant une précision respectivement supérieure de 6,7 %, 7,7 % et 5,3 % sur M3-Bench-robot, M3-Bench-web et VideoMME-long. Ce travail contribue à rapprocher les agents multimodaux d’une mémoire à long terme plus proche de celle des humains, tout en offrant des perspectives utiles pour leur conception pratique. Le modèle, le code source et les données sont disponibles à l’adresse suivante : https://github.com/bytedance-seed/m3-agent