HyperAIHyperAI

Command Palette

Search for a command to run...

Réponse aux questions vidéo par co-tokenisation itérative vidéo-texte

AJ Piergiovanni Kairo Morton Weicheng Kuo Michael S. Ryoo Anelia Angelova

Résumé

La réponse à des questions vidéo constitue une tâche complexe exigeant une compréhension conjointe de l’entrée linguistique, des informations visuelles présentes dans les cadres individuels d’une vidéo, ainsi que de l’information temporelle relative aux événements se déroulant dans celle-ci. Dans cet article, nous proposons un nouvel encodeur vidéo à multiples flux pour la réponse à des questions vidéo, basé sur plusieurs entrées vidéo et une nouvelle approche itérative de co-tokenisation vidéo-texte, permettant de répondre à une variété de questions liées aux vidéos. Nous évaluons expérimentalement notre modèle sur plusieurs jeux de données, tels que MSRVTT-QA, MSVD-QA et IVQA, où il surpasse de manière significative les précédents états de l’art. Par ailleurs, notre modèle réduit considérablement la charge computationnelle, passant de 150 à 360 GFLOPs à seulement 67 GFLOPs, offrant ainsi un modèle de réponse à des questions vidéo hautement efficace.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp