HyperAIHyperAI

Command Palette

Search for a command to run...

Compréhension des vidéos longues avec des modèles de langage multimodaux

Kanchana Ranasinghe Xiang Li Kumara Kahatapitiya Michael S. Ryoo

Résumé

Les grands modèles de langage (LLMs) ont permis aux approches récentes basées sur les LLMs d'obtenir d'excellents résultats sur des benchmarks d'analyse de vidéos longues. Nous examinons l'influence que les connaissances étendues du monde et les compétences en raisonnement solides des LLMs sous-jacents exercent sur cette performance remarquable. De manière surprenante, nous découvrons que les approches basées sur les LLMs peuvent produire une précision étonnamment bonne pour des tâches de vidéos longues avec une information vidéo limitée, parfois même sans aucune information spécifique à la vidéo. À partir de ces observations, nous explorons l'injection d'informations spécifiques aux vidéos dans un cadre basé sur les LLMs. Nous utilisons des outils visuels standard pour extraire trois modalités d'information centrées sur les objets à partir des vidéos, puis nous exploitons le langage naturel comme moyen de fusionner ces informations. Notre cadre Multimodal Video Understanding (MVU) démontre une performance de pointe sur plusieurs benchmarks d'analyse de vidéos. Les performances élevées également dans les tâches du domaine de la robotique confirment sa forte généralité. Code : https://github.com/kahnchana/mvu


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp