17 天前
HYDRA:一种用于动态组合视觉推理的超智能体
Fucai Ke, Zhixi Cai, Simindokht Jahangard, Weiqing Wang, Pari Delir Haghighi, Hamid Rezatofighi

摘要
近年来,视觉推理(Visual Reasoning, VR)领域在大型视觉语言模型(Large Vision-Language Models, VLMs)的推动下取得了显著进展,展现出广阔的应用前景。然而,该技术仍面临诸多挑战,包括对大规模数据集的依赖、高昂的计算成本以及泛化能力有限等问题。为此,组合式视觉推理方法应运而生,成为一种有效的解决方案。然而,现有方法高度依赖大型语言模型(Large Language Models, LLMs)中编码的常识知识来完成规划或推理任务,却未能充分考虑其决策对视觉推理过程本身的影响,从而可能导致错误或推理失败。为应对上述挑战,本文提出HYDRA——一种多阶段动态组合式视觉推理框架,旨在实现可靠且逐步递进的泛化推理能力。HYDRA整合了三个核心模块:规划器(planner)、作为认知控制器的强化学习(Reinforcement Learning, RL)智能体,以及推理器(reasoner)。其中,规划器与推理器模块均利用LLM生成指令样本及可执行代码;而RL智能体则通过反馈回路持续获取历史状态信息,动态地与上述模块交互,基于当前上下文在多个候选指令样本中做出最优选择。这种可适应的设计使HYDRA能够根据推理过程中获得的先前反馈实时调整自身行为,从而提升推理结果的可靠性,并显著增强整体性能。实验结果表明,HYDRA在四个广泛使用的基准数据集上的多种视觉推理任务中均取得了当前最优(state-of-the-art)的表现,验证了其在复杂视觉推理场景下的有效性与泛化能力。