IntentQA : Raisonnement sur l'intention vidéo contextuel

Dans cet article, nous proposons une nouvelle tâche, IntenQA, une forme particulière de tâche VideoQA centrée sur le raisonnement de l’intention vidéo, qui est devenue de plus en plus importante pour l’intelligence artificielle grâce à sa capacité à doter les agents IA de compétences de raisonnement allant au-delà de la simple reconnaissance dans les tâches quotidiennes. Nous contribuons également à la création d’un grand ensemble de données VideoQA dédié à cette tâche. Nous proposons un modèle de raisonnement d’intention vidéo contextuel, nommé CaVIR, composé de trois composants principaux : i) un langage de requête vidéo (VQL) pour une représentation multimodale améliorée du contexte situationnel, ii) un module d’apprentissage contrastif permettant d’exploiter le contexte contrastif, et iii) un module de raisonnement du sens commun pour intégrer le contexte du sens commun. Des expériences approfondies sur cette tâche exigeante démontrent l’efficacité de chaque composant du modèle, l’avantage de notre modèle complet par rapport aux autres méthodes de référence, ainsi que la capacité de généralisation de notre modèle à une nouvelle tâche VideoQA. L’ensemble de données et le code source sont rendus accessibles via : https://github.com/JoseponLee/IntentQA.git