HyperAIHyperAI
il y a 2 mois

Une Grille d'Images Peut Égaler une Vidéo : Réponse à des Questions sur les Vidéos en Zero-shot Utilisant un MVM

Wonkyun Kim; Changin Choi; Wonseok Lee; Wonjong Rhee
Une Grille d'Images Peut Égaler une Vidéo : Réponse à des Questions sur les Vidéos en Zero-shot Utilisant un MVM
Résumé

Stimulés par les capacités de raisonnement sophistiquées des récents Modèles de Langue à Grande Échelle (LLMs), diverses stratégies pour le pontage modalité vidéo ont été élaborées. Une stratégie prédominante implique les Modèles de Langue Vidéo (VideoLMs), qui forment une interface apprenable avec des données vidéo pour relier des encodeurs visuels avancés aux LLMs. Récemment, une stratégie alternative est apparue, utilisant des modèles fondamentaux facilement disponibles, tels que les VideoLMs et les LLMs, à travers plusieurs étapes pour le pontage modalité. Dans cette étude, nous présentons une stratégie simple mais novatrice où seul un Modèle de Langue Visuelle (VLM) est utilisé. Notre point de départ est l'observation simple qu'une vidéo se compose d'une série d'images, ou de trames, entrelacées avec des informations temporelles. L'essence de la compréhension vidéo réside dans la gestion habile des aspects temporels ainsi que des détails spatiaux de chaque trame. Initialement, nous transformons une vidéo en une seule image composite en disposant plusieurs trames dans un agencement en grille. L'image résultante est appelée une grille d'images (image grid). Ce format, bien qu'il maintienne l'apparence d'une seule image, conserve efficacement les informations temporelles au sein de la structure en grille. Par conséquent, l'approche par grille d'images permet l'application directe d'un seul VLM haute performance sans nécessiter aucune formation sur des données vidéo. Notre analyse expérimentale approfondie sur dix benchmarks de questions-réponses vidéo zéro-shot, incluant cinq benchmarks à choix multiples et cinq benchmarks ouverts, montre que le modèle IG-VLM proposé dépasse les méthodes existantes dans neuf des dix benchmarks.

Une Grille d'Images Peut Égaler une Vidéo : Réponse à des Questions sur les Vidéos en Zero-shot Utilisant un MVM | Articles de recherche récents | HyperAI