HyperAIHyperAI

Command Palette

Search for a command to run...

VideoTree : Représentation vidéo adaptative basée sur un arbre pour le raisonnement des LLM sur les vidéos longues

Ziyang Wang* Shoubin Yu* Elias Stengel-Eskin* Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal

Résumé

La compréhension des vidéos de longue durée est compliquée par la forte redondance des données vidéo et l'abondance d'informations non pertinentes pour la requête. Pour relever ces défis, nous proposons VideoTree, un cadre sans apprentissage qui construit une représentation vidéo hiérarchique et adaptée à la requête pour le raisonnement des LLM sur les vidéos de longue durée. Tout d'abord, VideoTree extrait les informations pertinentes à la requête de la vidéo d'entrée par un processus itératif, affinant progressivement la sélection des images clés en fonction de leur pertinence pour la requête. De plus, VideoTree exploite la structure hiérarchique inhérente aux données vidéo de longue durée, souvent négligée par les méthodes actuelles basées sur les LLM. Plus précisément, nous intégrons des informations à plusieurs niveaux de granularité dans une représentation arborescente, permettant à VideoTree d'extraire des détails pertinents à la requête des vidéos longues selon une approche du général au particulier. Cela permet au modèle de gérer efficacement une large gamme de requêtes vidéo avec différents niveaux de détail. Enfin, VideoTree agrège les informations hiérarchiques pertinentes à la requête au sein de la structure arborescente et les transmet à un modèle de raisonnement LLM pour répondre à la requête. Nos expériences montrent que notre méthode améliore à la fois la précision et l'efficacité du raisonnement. Plus précisément, VideoTree surpassent les approches existantes sans apprentissage sur EgoSchema et NExT-QA avec un temps d'inférence moindre, atteignant respectivement 61,1 % et 75,6 % de précision sur l'ensemble de test sans formation supplémentaire spécifique aux vidéos. De plus, sur le segment long de Video-MME (moyenne de 44 minutes), VideoTree obtient des performances supérieures à celles de GPT-4V et nombre d'autres MLLM qui ont été formés intensivement sur des données vidéo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp