HyperAIHyperAI

Command Palette

Search for a command to run...

Réponse à des questions vidéo par contraste via le transformateur de graphe vidéo

Junbin Xiao Pan Zhou Angela Yao Yicong Li Richang Hong Shuicheng Yan Tat-Seng Chua

Résumé

Nous proposons d'effectuer la réponse à des questions sur des vidéos (VideoQA) de manière contrastive à l'aide d'un modèle appelé Transformer de graphe vidéo (CoVGT). L'originalité et l'efficacité de CoVGT s'expriment en trois aspects principaux : 1) Il introduit un module de transformer à graphe dynamique qui encode les vidéos en capturant explicitement les objets visuels, leurs relations et leurs dynamiques, permettant ainsi un raisonnement spatio-temporel complexe. 2) Il met en œuvre des transformateurs distincts pour les vidéos et le texte afin d'effectuer l'apprentissage contrastif entre ces deux modalités, au lieu d'utiliser un transformateur multimodal pour la classification des réponses. Une communication fine entre les modalités est réalisée grâce à des modules supplémentaires d'interaction cross-modale. 3) Il est optimisé par des objectifs contrastifs conjoints entièrement supervisés et auto-supervisés, respectivement entre les réponses correctes et incorrectes, ainsi que les questions pertinentes et non pertinentes. Grâce à une encodage vidéo performant et une approche avancée de réponse aux questions, nous démontrons que CoVGT atteint des performances nettement supérieures à celles des méthodes antérieures sur des tâches de raisonnement vidéo. Ses résultats dépassent même ceux de modèles préentraînés sur des millions de données externes. Nous montrons également que CoVGT peut bénéficier de l'apprentissage préalable cross-modale, tout en nécessitant un ordre de grandeur moins de données. Ces résultats attestent de l'efficacité et de l'avantage de CoVGT, tout en révélant son potentiel pour un préentraînement plus efficace en termes de données. Nous espérons que cette réussite contribuera à faire évoluer la tâche VideoQA, dépassant la simple reconnaissance ou description grossière du contenu vidéo vers un raisonnement fin sur les relations présentes dans les vidéos. Notre code est disponible à l'adresse suivante : https://github.com/doc-doc/CoVGT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réponse à des questions vidéo par contraste via le transformateur de graphe vidéo | Articles | HyperAI