HyperAIHyperAI

Command Palette

Search for a command to run...

VideoAgent : Compréhension vidéo à long format avec un Modèle de Langage Énorme agissant comme un Agent

Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy

Résumé

La compréhension des vidéos longues constitue un défi majeur en vision par ordinateur, exigeant un modèle capable de raisonner sur des séquences longues et multimodales. Inspirés du processus cognitif humain de compréhension des vidéos longues, nous mettons l’accent sur le raisonnement interactif et la planification, plutôt que sur la simple capacité à traiter des entrées visuelles longues. Nous introduisons un nouveau système basé sur des agents, appelé VideoAgent, qui utilise un grand modèle linguistique comme agent central pour identifier de manière itérative et compiler les informations essentielles afin de répondre à une question, les modèles fondamentaux multimodaux vision-langage servant de outils pour traduire et extraire les informations visuelles. Évalué sur les défis EgoSchema et NExT-QA, VideoAgent atteint des taux de précision zéro-shot de 54,1 % et 71,3 %, en utilisant en moyenne seulement 8,4 et 8,2 images respectivement. Ces résultats démontrent une efficacité et une efficience supérieures par rapport aux méthodes de pointe actuelles, soulignant le potentiel des approches basées sur les agents pour faire progresser la compréhension des vidéos longues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp