Command Palette

Search for a command to run...

20 天前

DeepMMSearch-R1:赋能多模态LLM在多模态网络搜索中的应用

Kartik Narayan Yang Xu Tian Cao Kavya Nerella Vishal M. Patel et al

DeepMMSearch-R1:赋能多模态LLM在多模态网络搜索中的应用

摘要

在现实世界应用中,多模态大语言模型(MLLMs)需要访问外部知识源,并能够及时响应不断变化的现实世界信息,以应对信息查询和知识密集型用户需求。现有方法,如检索增强生成(RAG)技术、搜索代理(search agents)以及配备搜索功能的多模态大语言模型,往往存在流程僵化、搜索调用次数过多以及搜索查询构建不当等问题,导致效率低下且结果不理想。为解决上述局限,我们提出了 DeepMMSearch-R1——首个能够按需执行多轮网络搜索,并动态为图像与文本搜索工具生成优化查询的多模态大语言模型。具体而言,DeepMMSearch-R1 可基于输入图像的相关区域(crop)启动网络搜索,从而提升图像搜索的有效性;同时,它能根据已获取的信息迭代优化文本搜索查询,实现自我反思与自我修正能力。我们的方法采用两阶段训练流程:首先进行冷启动阶段的监督微调,随后通过在线强化学习进行持续优化。在训练数据方面,我们构建了 DeepMMSearchVQA——一个通过自动化流程生成、并融合真实网络搜索工具信息的新型多模态视觉问答(VQA)数据集。该数据集包含多样化的多跳(multi-hop)查询,整合了文本与视觉信息,使模型学会判断何时进行搜索、搜索什么内容、应使用何种搜索工具,以及如何对检索结果进行推理。我们在一系列知识密集型基准测试中开展了广泛实验,充分验证了本方法的优越性。最后,我们对实验结果进行了深入分析,提出了对推动多模态网络搜索技术发展的有益见解。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供