Réponse aux questions vidéo par co-tokenisation itérative vidéo-texte

La réponse à des questions vidéo constitue une tâche complexe exigeant une compréhension conjointe de l’entrée linguistique, des informations visuelles présentes dans les cadres individuels d’une vidéo, ainsi que de l’information temporelle relative aux événements se déroulant dans celle-ci. Dans cet article, nous proposons un nouvel encodeur vidéo à multiples flux pour la réponse à des questions vidéo, basé sur plusieurs entrées vidéo et une nouvelle approche itérative de co-tokenisation vidéo-texte, permettant de répondre à une variété de questions liées aux vidéos. Nous évaluons expérimentalement notre modèle sur plusieurs jeux de données, tels que MSRVTT-QA, MSVD-QA et IVQA, où il surpasse de manière significative les précédents états de l’art. Par ailleurs, notre modèle réduit considérablement la charge computationnelle, passant de 150 à 360 GFLOPs à seulement 67 GFLOPs, offrant ainsi un modèle de réponse à des questions vidéo hautement efficace.