HyperAIHyperAI
il y a 9 jours

Réponse à des questions vidéo par contraste via le transformateur de graphe vidéo

Junbin Xiao, Pan Zhou, Angela Yao, Yicong Li, Richang Hong, Shuicheng Yan, Tat-Seng Chua
Réponse à des questions vidéo par contraste via le transformateur de graphe vidéo
Résumé

Nous proposons d'effectuer la réponse à des questions sur des vidéos (VideoQA) de manière contrastive à l'aide d'un modèle appelé Transformer de graphe vidéo (CoVGT). L'originalité et l'efficacité de CoVGT s'expriment en trois aspects principaux : 1) Il introduit un module de transformer à graphe dynamique qui encode les vidéos en capturant explicitement les objets visuels, leurs relations et leurs dynamiques, permettant ainsi un raisonnement spatio-temporel complexe. 2) Il met en œuvre des transformateurs distincts pour les vidéos et le texte afin d'effectuer l'apprentissage contrastif entre ces deux modalités, au lieu d'utiliser un transformateur multimodal pour la classification des réponses. Une communication fine entre les modalités est réalisée grâce à des modules supplémentaires d'interaction cross-modale. 3) Il est optimisé par des objectifs contrastifs conjoints entièrement supervisés et auto-supervisés, respectivement entre les réponses correctes et incorrectes, ainsi que les questions pertinentes et non pertinentes. Grâce à une encodage vidéo performant et une approche avancée de réponse aux questions, nous démontrons que CoVGT atteint des performances nettement supérieures à celles des méthodes antérieures sur des tâches de raisonnement vidéo. Ses résultats dépassent même ceux de modèles préentraînés sur des millions de données externes. Nous montrons également que CoVGT peut bénéficier de l'apprentissage préalable cross-modale, tout en nécessitant un ordre de grandeur moins de données. Ces résultats attestent de l'efficacité et de l'avantage de CoVGT, tout en révélant son potentiel pour un préentraînement plus efficace en termes de données. Nous espérons que cette réussite contribuera à faire évoluer la tâche VideoQA, dépassant la simple reconnaissance ou description grossière du contenu vidéo vers un raisonnement fin sur les relations présentes dans les vidéos. Notre code est disponible à l'adresse suivante : https://github.com/doc-doc/CoVGT.

Réponse à des questions vidéo par contraste via le transformateur de graphe vidéo | Articles de recherche récents | HyperAI