il y a 8 mois

Résumé

La compréhension des vidéos de longue durée est compliquée par la forte redondance des données vidéo et l'abondance d'informations non pertinentes pour la requête. Pour relever ces défis, nous proposons VideoTree, un cadre sans apprentissage qui construit une représentation vidéo hiérarchique et adaptée à la requête pour le raisonnement des LLM sur les vidéos de longue durée. Tout d'abord, VideoTree extrait les informations pertinentes à la requête de la vidéo d'entrée par un processus itératif, affinant progressivement la sélection des images clés en fonction de leur pertinence pour la requête. De plus, VideoTree exploite la structure hiérarchique inhérente aux données vidéo de longue durée, souvent négligée par les méthodes actuelles basées sur les LLM. Plus précisément, nous intégrons des informations à plusieurs niveaux de granularité dans une représentation arborescente, permettant à VideoTree d'extraire des détails pertinents à la requête des vidéos longues selon une approche du général au particulier. Cela permet au modèle de gérer efficacement une large gamme de requêtes vidéo avec différents niveaux de détail. Enfin, VideoTree agrège les informations hiérarchiques pertinentes à la requête au sein de la structure arborescente et les transmet à un modèle de raisonnement LLM pour répondre à la requête. Nos expériences montrent que notre méthode améliore à la fois la précision et l'efficacité du raisonnement. Plus précisément, VideoTree surpassent les approches existantes sans apprentissage sur EgoSchema et NExT-QA avec un temps d'inférence moindre, atteignant respectivement 61,1 % et 75,6 % de précision sur l'ensemble de test sans formation supplémentaire spécifique aux vidéos. De plus, sur le segment long de Video-MME (moyenne de 44 minutes), VideoTree obtient des performances supérieures à celles de GPT-4V et nombre d'autres MLLM qui ont été formés intensivement sur des données vidéo.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Réponse À Des Questions Visuelles

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Ziyang Wang* Shoubin Yu* Elias Stengel-Eskin* Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Réponse À Des Questions Visuelles

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Ziyang Wang* Shoubin Yu* Elias Stengel-Eskin* Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VideoTree : Représentation vidéo adaptative basée sur un arbre pour le raisonnement des LLM sur les vidéos longues

Ziyang Wang* Shoubin Yu* Elias Stengel-Eskin* Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VideoTree : Représentation vidéo adaptative basée sur un arbre pour le raisonnement des LLM sur les vidéos longues

Ziyang Wang* Shoubin Yu* Elias Stengel-Eskin* Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VideoTree : Représentation vidéo adaptative basée sur un arbre pour le raisonnement des LLM sur les vidéos longues

Ziyang Wang* Shoubin Yu* Elias Stengel-Eskin* Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters