Transformateur de graphe vidéo pour la réponse aux questions sur les vidéos

Ce papier propose un modèle appelé Video Graph Transformer (VGT) pour la réponse à des questions sur des vidéos (VideoQA). L'originalité de VGT réside dans deux aspects fondamentaux : 1) il introduit un module de transformer à graphe dynamique qui encode les vidéos en capturant explicitement les objets visuels, leurs relations et leurs dynamiques, afin de permettre un raisonnement spatio-temporel complexe ; 2) il utilise des transformeurs déconnectés pour les modalités vidéo et texte, permettant une comparaison de pertinence entre ces deux modalités pour effectuer la réponse à la question, plutôt que d’employer un transformeur croisés entrelacés dédié à la classification des réponses. La communication entre vision et texte est réalisée par des modules supplémentaires d’interaction cross-modale. Grâce à une encodage vidéo plus raisonnable et une approche de résolution de questions améliorée, nous démontrons que VGT atteint des performances nettement supérieures aux méthodes antérieures sur des tâches de VideoQA exigeant un raisonnement sur les relations dynamiques, même dans un cadre sans pré-entraînement. Ses performances dépassent celles de modèles pré-entraînés sur des millions de données externes. Nous montrons également que VGT peut bénéficier considérablement de l’entraînement auto-supervisé cross-modale, tout en utilisant des quantités de données d’un ordre de grandeur inférieur. Ces résultats mettent clairement en évidence l’efficacité et l’avantage de VGT, tout en révélant son potentiel pour un pré-entraînement plus efficace en données. À travers des analyses approfondies et certaines observations heuristiques, nous espérons que VGT contribuera à faire évoluer la recherche en VQA, en dépassant les approches basées sur la reconnaissance ou la description grossière, vers un raisonnement fine-grained sur les relations dans des vidéos réalistes. Notre code est disponible à l’adresse suivante : https://github.com/sail-sg/VGT.