HyperAIHyperAI

Command Palette

Search for a command to run...

ViLA : Alignement vidéo-langage efficace pour la réponse aux questions sur les vidéos

Xijun Wang Junbang Liang Chun-Kai Wang Kenan Deng Yu Lou Ming Lin Shan Yang

Résumé

Dans ce travail, nous proposons un réseau efficace d’alignement vidéo-langage (ViLA). Notre modèle ViLA aborde de manière unifiée l’échantillonnage efficace des trames et l’alignement cross-modale efficace. Dans notre architecture ViLA, nous avons conçu un nouveau module d’encadrement de trames guidé par le texte, apprenable (Frame-Prompter), ainsi qu’un nouveau module de distillation cross-modale (QFormer-Distiller). Les grands modèles préentraînés image-langage ont montré des résultats prometteurs sur des tâches telles que la réponse à des questions visuelles (VQA). Toutefois, le problème de l’échantillonnage efficace et efficace des trames vidéo lors de l’adaptation de ces modèles préentraînés à l’alignement vidéo-langage reste un défi majeur. Contrairement aux travaux antérieurs, notre modèle ViLA démontre sa capacité à sélectionner les trames clés contenant des informations critiques, améliorant ainsi la précision de l’alignement vidéo-langage tout en réduisant la latence d’inférence (+3,3 % sur NExT-QA Temporal avec un accélération de 3,0×). Globalement, notre réseau ViLA surpasser les méthodes de l’état de l’art sur les benchmarks de question-réponse vidéo : +4,6 % sur STAR Interaction, +2,2 % sur la moyenne STAR avec une accélération de 3,0× ; notre modèle utilisant seulement 2 trames surpasse SeViLA avec 4 trames sur le jeu de données VLEP, avec une accélération de 4,2×. Le code source sera disponible à l’adresse suivante : https://github.com/xijun-cs/ViLA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp