Command Palette
Search for a command to run...
Jinming Wu Zihao Deng Wei Li Yiding Liu Bo You Bo Li Zejun Ma Ziwei Liu

摘要
在现实场景中稳健部署大型多模态模型(LMMs)需要访问外部知识源,因为现实世界的信息具有复杂性和动态性。现有的方法如检索增强生成(RAG)和提示工程搜索代理依赖于僵化的管道,通常会导致低效或过度的搜索行为。我们提出了MMSearch-R1,这是首个端到端的强化学习框架,使LMMs能够在真实的互联网环境中进行按需、多轮次的搜索。我们的框架集成了图像和文本搜索工具,允许模型根据基于结果的奖励机制(带有搜索惩罚)来判断何时以及如何调用这些工具。为了支持训练,我们通过半自动管道收集了一个涵盖多样视觉和文本知识需求的多模态搜索VQA数据集,并精心整理了一个包含需要搜索和不需要搜索样本的平衡子集,这对于塑造高效且按需的搜索行为至关重要。在知识密集型和信息查询型VQA任务上的广泛实验表明,我们的模型不仅在相同规模下优于基于RAG的基线模型,而且在减少超过30%的搜索调用的同时,其性能与更大规模的基于RAG的模型相当。我们进一步分析了关键的经验发现,为推进多模态搜索研究提供了可操作性的见解。
代码仓库
evolvinglmms-lab/multimodal-search-r1
官方
pytorch
GitHub 中提及