Proxy-Pointer RAG:无需多模态嵌入实现多模态问答
企业聊天机器人通常只能返回文本和链接,难以直接展示文档中的相关图片。传统多模态检索方法面临两大挑战:一是基于分块的检索容易割裂图像上下文,导致模型无法判断图片归属;二是多模态嵌入模型虽能跨模态搜索,但仅关注相似度而非逻辑 grounding,可能引发误匹配。 针对这些痛点,Partha Sarkar 提出了一种开源的多模态代理指针检索生成(RAG)管道。该方案的核心创新在于放弃传统的文本分块,转而将文档视为包含图像路径的语义树。系统不依赖昂贵的多模态嵌入模型,而是利用纯文本向量索引,将文档按章节边界切分,确保每个检索单元包含完整的上下文及内部图像引用。在检索阶段,系统先通过向量相似度召回候选章节,再利用大语言模型结合章节标题和语义片段进行重排序。最终,生成模型基于完整的章节内容,精准判断并选取相关图片的路径进行展示,而非直接处理图像像素。 测试显示,该原型系统在处理二十道关于五篇 AI 论文的问题时,图像检索准确率达到 95%,且未出现错误图片泄露的情况。相比传统方法,该技术显著降低了计算成本,避免了视觉模型带来的延迟,同时提升了答案的可信度。尽管存在大模型非确定性或子节点图片引用路径断裂等边缘情况,但整体架构为构建能“所见即所得”的企业级聊天机器人提供了高效、可靠的解决方案。该项目已完全开源,支持用户快速部署并应用于各类文档场景。
