VidCtx : Réponse aux questions vidéo contextualisée avec des modèles d'images

Pour répondre aux limitations de calcul et de mémoire des grands modèles multimodaux dans la tâche de réponse à des questions sur des vidéos, plusieurs méthodes récentes extraient des représentations textuelles par image (par exemple, en légendant) et les alimentent à un grand modèle linguistique (LLM) qui les traite pour produire la réponse finale. Cependant, avec cette approche, le LLM n'a pas accès aux informations visuelles et doit souvent traiter des descriptions textuelles répétitives de cadres voisins. Pour remédier à ces lacunes, nous présentons dans cet article VidCtx, un nouveau cadre de VideoQA sans apprentissage qui intègre les deux modalités, c'est-à-dire les informations visuelles provenant des images d'entrée et les descriptions textuelles d'autres images qui fournissent le contexte approprié.Plus précisément, dans le cadre proposé, un grand modèle multimodal pré-entraîné (LMM) est sollicité pour extraire à intervalles réguliers des descriptions textuelles sensibles au contexte de la question (légendes) des images vidéo. Ces descriptions seront utilisées comme contexte lorsque le même LMM sera sollicité pour répondre à la question donnée en entrée a) une certaine image, b) la question et c) le contexte/légende d'une image appropriée. Pour éviter l'information redondante, nous avons choisi comme contexte les descriptions d'images éloignées. Enfin, un mécanisme simple mais efficace de max pooling est utilisé pour agréger les décisions au niveau des images. Cette méthodologie permet au modèle de se concentrer sur les segments pertinents de la vidéo et de s'adapter à un grand nombre d'images.Les expériences montrent que VidCtx atteint une performance compétitive parmi les approches basées sur des modèles ouverts sur trois benchmarks publics de Video QA : NExT-QA, IntentQA et STAR. Notre code est disponible sur https://github.com/IDT-ITI/VidCtx.