Vidéo en tant qu’hiérarchie de graphe conditionnel pour la réponse à des questions multi-granulaire

La réponse aux questions vidéo exige que les modèles comprennent et raisonnent à la fois sur des données vidéo complexes et sur des données linguistiques afin de déduire correctement les réponses. Les travaux existants se concentrent principalement sur la conception d’interactions croisées sophistiquées afin de fusionner les informations provenant des deux modalités, tout en encodant la vidéo et la question de manière holistique sous forme de séquences d’images et de mots. Malgré leurs succès, ces approches reposent essentiellement sur la nature séquentielle des contenus vidéo et des questions, offrant ainsi peu d’insights sur le problème de la réponse aux questions et manquant également d’interprétabilité. Dans ce travail, nous affirmons que, bien que la vidéo soit présentée sous forme de séquence d’images, les éléments visuels (tels que les objets, les actions, les activités ou les événements) ne sont pas séquentiels, mais plutôt hiérarchiques dans l’espace sémantique. Pour s’aligner sur l’essence multi-granulaire des concepts linguistiques présents dans les requêtes textuelles, nous proposons de modéliser la vidéo sous la forme d’une hiérarchie de graphes conditionnels, qui intègre de manière progressive des faits visuels de différentes granularités, guidée par des indices textuels correspondants. Malgré sa simplicité, notre évaluation extensive démontre l’efficacité supérieure de cette architecture de graphe hiérarchique conditionnel, avec des améliorations significatives par rapport aux méthodes antérieures, ainsi qu’une meilleure généralisation sur différents types de questions. Des analyses supplémentaires confirment également la fiabilité du modèle, qui fournit des preuves visuelles et textuelles pertinentes pour les réponses prédites.