Command Palette
Search for a command to run...
MMCTAgent : Cadre d'Agent de Pensée Critique Multi-modale pour le Raisonnement Visuel Complex
MMCTAgent : Cadre d'Agent de Pensée Critique Multi-modale pour le Raisonnement Visuel Complex
Somnath Kumar Yash Gadhia Tanuja Ganu Akshay Nambi
Résumé
Les avancées récentes dans les modèles linguistiques à grande échelle multimodaux (MLLM) ont considérablement amélioré leurs performances dans les tâches combinant vision et langage. Toutefois, des défis subsistent en matière de compréhension fine multimodale, de compréhension de tâches complexes et de raisonnement sur des informations multimodales. Ce papier présente MMCTAgent, un nouveau cadre d’agent de pensée critique multimodale conçu pour surmonter les limites intrinsèques des MLLM actuels dans les tâches complexes de raisonnement visuel. Inspiré des processus cognitifs humains et de la pensée critique, MMCTAgent analyse de manière itérative les informations multimodales, décompose les requêtes, planifie des stratégies et fait évoluer dynamiquement son raisonnement. En outre, MMCTAgent intègre des éléments de pensée critique tels que la vérification des réponses finales et la réflexion sur soi-même grâce à une approche novatrice qui définit un critique basé sur la vision et identifie des critères d’évaluation spécifiques à la tâche, renforçant ainsi ses capacités de prise de décision. À travers des évaluations rigoureuses sur diverses benchmarks d’analyse d’images et de vidéos, nous démontrons que MMCTAgent (avec ou sans critique) surpasser à la fois les MLLM fondamentaux et d’autres pipelines augmentés d’outils.