TraveLER : Un cadre modulaire multi-LMM pour les agents de réponse aux questions vidéo

Récemment, les grands modèles multimodaux basés sur les images (LMMs) ont réalisé des progrès significatifs dans la tâche de réponse aux questions sur les vidéos (VideoQA) en adoptant une approche par trames, en exploitant un pré-entraînement à grande échelle de manière zéro-shot. Toutefois, ces modèles doivent être capables de localiser simultanément des informations pertinentes, de les extraire et de répondre à la question. Les méthodes actuelles effectuent ces étapes en une seule passe, sans pouvoir s’adapter en cas de collecte insuffisante ou incorrecte d’informations. Pour surmonter cette limitation, nous proposons un cadre modulaire à agents multi-LMM, fondé sur plusieurs agents aux rôles distincts, pilotés par un agent Planificateur qui met à jour ses instructions grâce à un retour d’information partagé provenant des autres agents. Plus précisément, nous introduisons TraveLER, une méthode capable de concevoir un plan pour « traverser » la vidéo, de poser des questions sur des trames individuelles afin de « localiser » et stocker les informations clés, puis de « évaluer » si suffisamment d’informations sont disponibles pour répondre à la question. En cas d’insuffisance d’information, notre méthode peut alors « re-planifier » en se basant sur les connaissances collectées. À travers des expérimentations étendues, nous constatons que l’approche TraveLER améliore les performances sur plusieurs benchmarks de VideoQA, sans nécessiter de fine-tuning sur des jeux de données spécifiques. Le code est disponible à l’adresse suivante : https://github.com/traveler-framework/TraveLER.