HyperAIHyperAI
il y a 2 mois

Compréhension des vidéos longues avec des modèles de langage multimodaux

Ranasinghe, Kanchana ; Li, Xiang ; Kahatapitiya, Kumara ; Ryoo, Michael S.
Compréhension des vidéos longues avec des modèles de langage multimodaux
Résumé

Les grands modèles de langage (LLMs) ont permis aux approches récentes basées sur les LLMs d'obtenir d'excellents résultats sur des benchmarks d'analyse de vidéos longues. Nous examinons l'influence que les connaissances étendues du monde et les compétences en raisonnement solides des LLMs sous-jacents exercent sur cette performance remarquable. De manière surprenante, nous découvrons que les approches basées sur les LLMs peuvent produire une précision étonnamment bonne pour des tâches de vidéos longues avec une information vidéo limitée, parfois même sans aucune information spécifique à la vidéo. À partir de ces observations, nous explorons l'injection d'informations spécifiques aux vidéos dans un cadre basé sur les LLMs. Nous utilisons des outils visuels standard pour extraire trois modalités d'information centrées sur les objets à partir des vidéos, puis nous exploitons le langage naturel comme moyen de fusionner ces informations. Notre cadre Multimodal Video Understanding (MVU) démontre une performance de pointe sur plusieurs benchmarks d'analyse de vidéos. Les performances élevées également dans les tâches du domaine de la robotique confirment sa forte généralité. Code : https://github.com/kahnchana/mvu

Compréhension des vidéos longues avec des modèles de langage multimodaux | Articles de recherche récents | HyperAI