il y a 8 mois

Résumé

Stimulés par les capacités de raisonnement sophistiquées des récents Modèles de Langue à Grande Échelle (LLMs), diverses stratégies pour le pontage modalité vidéo ont été élaborées. Une stratégie prédominante implique les Modèles de Langue Vidéo (VideoLMs), qui forment une interface apprenable avec des données vidéo pour relier des encodeurs visuels avancés aux LLMs. Récemment, une stratégie alternative est apparue, utilisant des modèles fondamentaux facilement disponibles, tels que les VideoLMs et les LLMs, à travers plusieurs étapes pour le pontage modalité. Dans cette étude, nous présentons une stratégie simple mais novatrice où seul un Modèle de Langue Visuelle (VLM) est utilisé. Notre point de départ est l'observation simple qu'une vidéo se compose d'une série d'images, ou de trames, entrelacées avec des informations temporelles. L'essence de la compréhension vidéo réside dans la gestion habile des aspects temporels ainsi que des détails spatiaux de chaque trame. Initialement, nous transformons une vidéo en une seule image composite en disposant plusieurs trames dans un agencement en grille. L'image résultante est appelée une grille d'images (image grid). Ce format, bien qu'il maintienne l'apparence d'une seule image, conserve efficacement les informations temporelles au sein de la structure en grille. Par conséquent, l'approche par grille d'images permet l'application directe d'un seul VLM haute performance sans nécessiter aucune formation sur des données vidéo. Notre analyse expérimentale approfondie sur dix benchmarks de questions-réponses vidéo zéro-shot, incluant cinq benchmarks à choix multiples et cinq benchmarks ouverts, montre que le modèle IG-VLM proposé dépasse les méthodes existantes dans neuf des dix benchmarks.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Une Grille d'Images Peut Égaler une Vidéo : Réponse à des Questions sur les Vidéos en Zero-shot Utilisant un MVM

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Une Grille d'Images Peut Égaler une Vidéo : Réponse à des Questions sur les Vidéos en Zero-shot Utilisant un MVM

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Une Grille d'Images Peut Égaler une Vidéo : Réponse à des Questions sur les Vidéos en Zero-shot Utilisant un MVM

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters