11 天前

WebWatcher:开拓视觉-语言深度研究Agent的新疆界

Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
WebWatcher:开拓视觉-语言深度研究Agent的新疆界
摘要

诸如 Deep Research 的网络代理已展现出超越人类的认知能力,能够解决极具挑战性的信息检索任务。然而,当前大多数研究仍以文本为中心,忽视了现实世界中的视觉信息,这使得多模态 Deep Research 面临巨大挑战——此类代理不仅需要更强的感知、逻辑、知识推理能力,还需使用更复杂的工具,远超纯文本代理的能力要求。为克服这一局限,我们提出 WebWatcher,一种具备增强型视觉-语言推理能力的多模态 Deep Research 代理。该代理通过高质量的合成多模态轨迹实现高效的冷启动训练,结合多种工具进行深度推理,并借助强化学习进一步提升泛化能力。为更全面评估多模态代理的性能,我们提出了 BrowseComp-VL 基准,其设计灵感源自 BrowseComp,要求在信息检索任务中同时处理视觉与文本信息,具备高度复杂性。实验结果表明,WebWatcher 在四项具有挑战性的视觉问答(VQA)基准测试中,显著优于现有商业基线模型、RAG 工作流以及开源代理,为解决复杂的多模态信息检索任务开辟了新路径。