16 天前

MMCTAgent:面向复杂视觉推理的多模态批判性思维Agent框架

Somnath Kumar, Yash Gadhia, Tanuja Ganu, Akshay Nambi
MMCTAgent:面向复杂视觉推理的多模态批判性思维Agent框架
摘要

近年来,多模态大语言模型(MLLMs)在融合视觉与语言的任务中取得了显著性能提升。然而,在细节化的多模态理解、复杂任务的 comprehensibility(理解能力)以及多模态信息推理方面,仍面临诸多挑战。本文提出了一种名为MMCTAgent的新型多模态批判性思维代理框架,旨在解决当前MLLMs在复杂视觉推理任务中存在的固有局限性。受人类认知过程与批判性思维启发,MMCTAgent通过迭代式分析多模态信息,分解问题、规划策略,并动态演化其推理路径。此外,MMCTAgent引入了批判性思维的核心要素,包括对最终答案的验证与自我反思,其创新之处在于提出一种基于视觉的评判机制(vision-based critic),并针对具体任务识别相应的评估标准,从而显著提升其决策能力。通过在多个图像与视频理解基准上的严格评估,我们证明,无论是否引入评判模块,MMCTAgent均显著优于基础MLLMs以及其他工具增强型推理流水线。

MMCTAgent:面向复杂视觉推理的多模态批判性思维Agent框架 | 最新论文 | HyperAI超神经