HyperAIHyperAI

Command Palette

Search for a command to run...

MA-LMM : Modèle multimodal à grande échelle avec mémoire pour la compréhension à long terme des vidéos

Bo He Hengduo Li Young Kyun Jang Menglin Jia Xuefei Cao Ashish Shah Abhinav Shrivastava Ser-Nam Lim

Résumé

Avec le succès des grands modèles de langage (LLMs), l'intégration d'un modèle visuel dans les LLMs pour construire des modèles fondamentaux vision-langue a suscité un intérêt croissant récemment. Cependant, les grands modèles multimodaux basés sur les LLMs existants (par exemple, Video-LLaMA, VideoChat) ne peuvent traiter qu'un nombre limité de frames pour la compréhension de vidéos courtes. Dans cette étude, nous nous concentrons principalement sur la conception d'un modèle efficace et performant pour la compréhension à long terme des vidéos. Au lieu d'essayer de traiter plus de frames simultanément comme la plupart des travaux existants, nous proposons de traiter les vidéos en ligne et de stocker les informations vidéo passées dans une banque mémoire. Cela permet à notre modèle de faire référence au contenu vidéo historique pour l'analyse à long terme sans dépasser les contraintes de longueur du contexte des LLMs ou les limites de mémoire GPU. Notre banque mémoire peut être intégrée sans problème aux modèles multimodaux LLMs actuels de manière standardisée. Nous menons des expériences approfondies sur diverses tâches de compréhension vidéo, telles que la compréhension de vidéos longues, la réponse à des questions sur des vidéos et la légendage vidéo, et notre modèle atteint des performances d'état de l'art sur plusieurs jeux de données. Le code est disponible à l'adresse suivante : https://boheumd.github.io/MA-LMM/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MA-LMM : Modèle multimodal à grande échelle avec mémoire pour la compréhension à long terme des vidéos | Articles | HyperAI