Glance and Focus : Mémoire de prompt pour la réponse à des questions vidéo à événements multiples

La réponse aux questions sur les vidéos (VideoQA) s’est imposée comme un outil essentiel pour évaluer la capacité des agents à comprendre les comportements humains au quotidien. Malgré les récents succès des grands modèles vision-langage dans de nombreuses tâches multimodales, le raisonnement complexe sur les vidéos impliquant plusieurs événements d’interactions homme-objet reste un défi. À l’inverse, les humains parviennent facilement à résoudre ce type de tâche en utilisant une série de mémoires épisodiques comme repères pour localiser rapidement les moments clés liés à la question, afin d’effectuer un raisonnement efficace. Pour imiter cette stratégie de raisonnement performante, nous proposons le modèle Glance-Focus. Une approche simple consisterait à appliquer un modèle de détection d’actions pour prédire un ensemble d’actions servant de mémoires clés. Toutefois, ces actions, définies dans un vocabulaire fermé, peinent à s’adapter à divers domaines vidéo. À la place, nous entraînons un modèle Encoder-Decoder afin de générer un ensemble de mémoires événementielles dynamiques durant la phase de « regard rapide » (glancing). En plus de la méthode supervisée basée sur un appariement bipartite pour extraire ces mémoires événementielles, nous proposons également une méthode non supervisée de génération de mémoire, permettant ainsi de s’affranchir de la dépendance aux annotations d’événements. Ensuite, lors de la phase de « concentration » (focusing), ces mémoires événementielles agissent comme un pont reliant les questions, qui portent sur des concepts événementiels de haut niveau, au contenu vidéo long et détaillé. Devant une question, le modèle se concentre d’abord sur la mémoire d’événement clé générée, puis sur le moment le plus pertinent pour le raisonnement, grâce à un mécanisme de mémoire croisée à plusieurs niveaux que nous avons conçu. Nous menons des expérimentations étendues sur quatre benchmarks de VideoQA à multiples événements : STAR, EgoTaskQA, AGQA et NExT-QA. Le modèle proposé atteint des résultats de pointe, dépassant les grands modèles actuels dans diverses tâches de raisonnement exigeantes. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/ByZ0e/Glance-Focus.