13 天前
中介引导的开源模型间多智能体协作用于医疗决策
Kaitao Chen, Mianxin Liu, Daoming Zong, Chaoyue Ding, Shaohao Rui, et al

摘要
复杂的医疗决策涉及多位临床医生协作完成的工作流程。设计人工智能多智能体系统有助于加速并增强人类水平的临床决策能力。现有的多智能体研究主要聚焦于仅语言任务,而将其拓展至多模态场景仍面临挑战。盲目地组合多种视觉-语言模型(VLMs)可能导致错误结果的放大与误判。相较于同等规模的大语言模型(LLMs),VLMs在指令遵循能力以及自我反思能力方面普遍较弱,这一差距显著限制了其在协作工作流程中的应用潜力。为此,本研究提出MedOrch——一种面向医疗多模态决策的中介引导型多智能体协作框架。MedOrch采用基于大语言模型(LLM)的中介智能体,使多个基于VLM的专家智能体能够交换并反思彼此的输出,从而实现有效协作。我们选用多个开源的通用型与领域专用型VLM,而非昂贵的GPT系列模型,凸显了异构模型组合的优势。实验表明,不同VLM驱动的智能体之间的协作性能可超越任一单一智能体的能力。我们在五个医学视觉问答基准上验证了该方法的有效性,结果表明该框架在无需模型训练的情况下仍能实现卓越的协作表现。研究结果强调了中介引导型多智能体协作在推动医疗多模态智能发展中的重要价值。相关代码将公开发布。