Command Palette

Search for a command to run...

14 天前

面向通用检索增强生成的混合模态检索

Chenghao Zhang Guanting Dong Xinyu Yang Zhicheng Dou

面向通用检索增强生成的混合模态检索

摘要

检索增强生成(Retrieval-Augmented Generation, RAG)已成为一种强大的范式,通过从外部语料库中检索相关文档来提升大语言模型(Large Language Models, LLMs)的性能。然而,现有的RAG系统主要聚焦于单模态文本文档,在实际应用场景中往往表现不足,因为用户查询和文档可能同时包含多种模态信息(如文本与图像)。本文针对通用检索增强生成(Universal Retrieval-Augmented Generation, URAG)这一挑战展开研究,旨在实现对多模态信息的联合检索与推理,以提升视觉-语言生成能力。为此,我们提出Nyx,一种专为URAG场景设计的统一型多模态到多模态检索器。为缓解真实世界多模态数据稀缺的问题,我们构建了一个四阶段自动化生成与过滤流程,利用网络文档构建了NyxQA数据集。该数据集包含丰富多样的多模态问答对,更真实地反映了现实中的信息需求。基于这一高质量数据集,我们采用两阶段训练框架对Nyx进行训练:首先在NyxQA数据集及多种开源检索数据集上进行预训练;随后通过下游视觉-语言模型(Vision-Language Models, VLMs)提供的反馈进行监督微调,使检索结果更符合生成任务的偏好。实验结果表明,Nyx不仅在标准的纯文本RAG基准测试中表现优异,更在更具普适性与现实意义的URAG设置中显著优于现有方法,大幅提升了视觉-语言生成任务的生成质量。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供