HyperAIHyperAI
il y a 2 mois

VideoGPT+ : Intégration des encodeurs d'images et de vidéos pour une meilleure compréhension des vidéos

Maaz, Muhammad ; Rasheed, Hanoona ; Khan, Salman ; Khan, Fahad
VideoGPT+ : Intégration des encodeurs d'images et de vidéos pour une meilleure compréhension des vidéos
Résumé

En s'appuyant sur les progrès réalisés dans les modèles de langage, les grands modèles multimodaux (LMMs) ont apporté des améliorations significatives à la compréhension vidéo. Bien que les modèles LMM actuels utilisent des grands modèles de langage avancés (LLMs), ils s'appuient soit sur des encodeurs d'images, soit sur des encodeurs vidéo pour traiter les entrées visuelles, chacun ayant ses propres limites. Les encodeurs d'images excellent dans la capture de détails spatiaux riches à partir de séquences d'images mais manquent de contexte temporel explicite, ce qui peut être crucial dans les vidéos avec des séquences d'action complexes. En revanche, les encodeurs vidéo fournissent un contexte temporel mais sont souvent limités par des contraintes computationnelles qui entraînent le traitement de cadres épars à des résolutions plus basses, réduisant ainsi la compréhension contextuelle et spatiale. À cette fin, nous présentons VideoGPT+, qui combine les avantages complémentaires de l'encodeur d'images (pour une compréhension spatiale détaillée) et de l'encodeur vidéo (pour la modélisation du contexte temporel global). Le modèle traite les vidéos en les divisant en segments plus petits et applique une stratégie de regroupement adaptatif sur les caractéristiques extraites par les deux encodeurs. Notre architecture montre une performance améliorée sur plusieurs benchmarks vidéo, notamment VCGBench, MVBench et le question-réponse zéro-shot. De plus, nous développons un ensemble d'instructions vidéo composé de 112 000 éléments grâce à un pipeline d'annotation semi-automatique novateur, ce qui améliore encore davantage la performance du modèle. En outre, pour évaluer exhaustivement les LMMs vidéo, nous présentons VCGBench-Diverse, couvrant 18 catégories vidéo larges telles que le mode de vie, le sport, la science, le jeu et la vidéosurveillance. Ce benchmark comprenant 4 354 paires question-réponse évalue la généralisation des LMMs existants en matière de légendage dense de vidéos, de compréhension spatiale et temporelle ainsi que de raisonnement complexe, garantissant une évaluation complète sur divers types et dynamiques vidéo.Code : https://github.com/mbzuai-oryx/VideoGPT-plus.

VideoGPT+ : Intégration des encodeurs d'images et de vidéos pour une meilleure compréhension des vidéos | Articles de recherche récents | HyperAI