Posez simplement : Apprendre à répondre aux questions à partir de millions de vidéos narrées

Les méthodes récentes en réponse aux questions visuelles s'appuient sur des jeux de données annotés à grande échelle. Toutefois, l'annotation manuelle des questions et réponses pour des vidéos est fastidieuse, coûteuse et limite la scalabilité. Dans ce travail, nous proposons d'éviter l'annotation manuelle et de générer un grand jeu de données d'entraînement pour la réponse aux questions vidéo en exploitant une supervision croisée automatique. Nous utilisons un transformateur de génération de questions entraîné sur des données textuelles pour produire des paires question-réponse à partir de narrations transcrits de vidéos. À partir de vidéos narrées, nous générons automatiquement le jeu de données HowToVQA69M, comprenant 69 millions de triplets vidéo-question-réponse. Pour gérer le vocabulaire ouvert des réponses diversifiées dans ce jeu de données, nous proposons une procédure d'entraînement basée sur une perte contrastive entre un transformateur multimodal vidéo-question et un transformateur de réponse. Nous introduisons la tâche de réponse aux questions vidéo en zéro-shot et montrons des résultats excellents, en particulier pour les réponses rares. En outre, nous démontrons que notre méthode surpasse significativement l'état de l'art sur les jeux de données MSRVTT-QA, MSVD-QA, ActivityNet-QA et How2QA. Enfin, pour une évaluation détaillée, nous introduisons iVQA, un nouveau jeu de données de réponse aux questions vidéo, caractérisé par une réduction des biais linguistiques et des annotations manuelles redondantes de haute qualité. Notre code, nos jeux de données et nos modèles entraînés sont disponibles à l'adresse suivante : https://antoyang.github.io/just-ask.html.