HyperAIHyperAI

Command Palette

Search for a command to run...

TraveLER : Un cadre modulaire multi-LMM pour les agents de réponse aux questions vidéo

Chuyi Shang Amos You Sanjay Subramanian Trevor Darrell Roei Herzig

Résumé

Récemment, les grands modèles multimodaux basés sur les images (LMMs) ont réalisé des progrès significatifs dans la tâche de réponse aux questions sur les vidéos (VideoQA) en adoptant une approche par trames, en exploitant un pré-entraînement à grande échelle de manière zéro-shot. Toutefois, ces modèles doivent être capables de localiser simultanément des informations pertinentes, de les extraire et de répondre à la question. Les méthodes actuelles effectuent ces étapes en une seule passe, sans pouvoir s’adapter en cas de collecte insuffisante ou incorrecte d’informations. Pour surmonter cette limitation, nous proposons un cadre modulaire à agents multi-LMM, fondé sur plusieurs agents aux rôles distincts, pilotés par un agent Planificateur qui met à jour ses instructions grâce à un retour d’information partagé provenant des autres agents. Plus précisément, nous introduisons TraveLER, une méthode capable de concevoir un plan pour « traverser » la vidéo, de poser des questions sur des trames individuelles afin de « localiser » et stocker les informations clés, puis de « évaluer » si suffisamment d’informations sont disponibles pour répondre à la question. En cas d’insuffisance d’information, notre méthode peut alors « re-planifier » en se basant sur les connaissances collectées. À travers des expérimentations étendues, nous constatons que l’approche TraveLER améliore les performances sur plusieurs benchmarks de VideoQA, sans nécessiter de fine-tuning sur des jeux de données spécifiques. Le code est disponible à l’adresse suivante : https://github.com/traveler-framework/TraveLER.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp