VideoAgent : Compréhension vidéo à long format avec un Modèle de Langage Énorme agissant comme un Agent

La compréhension des vidéos longues constitue un défi majeur en vision par ordinateur, exigeant un modèle capable de raisonner sur des séquences longues et multimodales. Inspirés du processus cognitif humain de compréhension des vidéos longues, nous mettons l’accent sur le raisonnement interactif et la planification, plutôt que sur la simple capacité à traiter des entrées visuelles longues. Nous introduisons un nouveau système basé sur des agents, appelé VideoAgent, qui utilise un grand modèle linguistique comme agent central pour identifier de manière itérative et compiler les informations essentielles afin de répondre à une question, les modèles fondamentaux multimodaux vision-langage servant de outils pour traduire et extraire les informations visuelles. Évalué sur les défis EgoSchema et NExT-QA, VideoAgent atteint des taux de précision zéro-shot de 54,1 % et 71,3 %, en utilisant en moyenne seulement 8,4 et 8,2 images respectivement. Ces résultats démontrent une efficacité et une efficience supérieures par rapport aux méthodes de pointe actuelles, soulignant le potentiel des approches basées sur les agents pour faire progresser la compréhension des vidéos longues.