HyperAIHyperAI
il y a 2 mois

VideoTree : Représentation vidéo adaptative basée sur un arbre pour le raisonnement des LLM sur les vidéos longues

Ziyang Wang; Shoubin Yu; Elias Stengel-Eskin; Jaehong Yoon; Feng Cheng; Gedas Bertasius; Mohit Bansal
VideoTree : Représentation vidéo adaptative basée sur un arbre pour le raisonnement des LLM sur les vidéos longues
Résumé

La compréhension des vidéos de longue durée est compliquée par la forte redondance des données vidéo et l'abondance d'informations non pertinentes pour la requête. Pour relever ces défis, nous proposons VideoTree, un cadre sans apprentissage qui construit une représentation vidéo hiérarchique et adaptée à la requête pour le raisonnement des LLM sur les vidéos de longue durée. Tout d'abord, VideoTree extrait les informations pertinentes à la requête de la vidéo d'entrée par un processus itératif, affinant progressivement la sélection des images clés en fonction de leur pertinence pour la requête. De plus, VideoTree exploite la structure hiérarchique inhérente aux données vidéo de longue durée, souvent négligée par les méthodes actuelles basées sur les LLM. Plus précisément, nous intégrons des informations à plusieurs niveaux de granularité dans une représentation arborescente, permettant à VideoTree d'extraire des détails pertinents à la requête des vidéos longues selon une approche du général au particulier. Cela permet au modèle de gérer efficacement une large gamme de requêtes vidéo avec différents niveaux de détail. Enfin, VideoTree agrège les informations hiérarchiques pertinentes à la requête au sein de la structure arborescente et les transmet à un modèle de raisonnement LLM pour répondre à la requête. Nos expériences montrent que notre méthode améliore à la fois la précision et l'efficacité du raisonnement. Plus précisément, VideoTree surpassent les approches existantes sans apprentissage sur EgoSchema et NExT-QA avec un temps d'inférence moindre, atteignant respectivement 61,1 % et 75,6 % de précision sur l'ensemble de test sans formation supplémentaire spécifique aux vidéos. De plus, sur le segment long de Video-MME (moyenne de 44 minutes), VideoTree obtient des performances supérieures à celles de GPT-4V et nombre d'autres MLLM qui ont été formés intensivement sur des données vidéo.

VideoTree : Représentation vidéo adaptative basée sur un arbre pour le raisonnement des LLM sur les vidéos longues | Articles de recherche récents | HyperAI