11 天前
WebWatcher:开拓视觉-语言深度研究Agent的新疆界
Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

摘要
诸如 Deep Research 的网络代理已展现出超越人类的认知能力,能够解决极具挑战性的信息检索任务。然而,当前大多数研究仍以文本为中心,忽视了现实世界中的视觉信息,这使得多模态 Deep Research 面临巨大挑战——此类代理不仅需要更强的感知、逻辑、知识推理能力,还需使用更复杂的工具,远超纯文本代理的能力要求。为克服这一局限,我们提出 WebWatcher,一种具备增强型视觉-语言推理能力的多模态 Deep Research 代理。该代理通过高质量的合成多模态轨迹实现高效的冷启动训练,结合多种工具进行深度推理,并借助强化学习进一步提升泛化能力。为更全面评估多模态代理的性能,我们提出了 BrowseComp-VL 基准,其设计灵感源自 BrowseComp,要求在信息检索任务中同时处理视觉与文本信息,具备高度复杂性。实验结果表明,WebWatcher 在四项具有挑战性的视觉问答(VQA)基准测试中,显著优于现有商业基线模型、RAG 工作流以及开源代理,为解决复杂的多模态信息检索任务开辟了新路径。