HyperAI超神经

小而强大：利用Llama Nemotron RAG模型提升多模态搜索与视觉文档检索的准确性在实际应用中，数据远不止文本。PDF中的图表、扫描合同、表格、截图和幻灯片等视觉内容同样承载关键信息，仅依赖文本检索系统容易遗漏重要内容。多模态RAG（检索增强生成）技术通过融合文本、图像和版面信息，实现对视觉文档的联合检索与推理，显著提升答案的准确性和实用性。本文介绍两款专为视觉文档检索优化的小型Llama Nemotron模型：llama-nemotron-embed-vl-1b-v2 和 llama-nemotron-rerank-vl-1b-v2。前者为单向量密集嵌入模型，将文本与图像信息高效压缩为统一向量表示，兼容主流向量数据库，支持毫秒级延迟的规模化企业级搜索。后者为交叉编码重排序模型，可对初步检索结果进行精准排序，提升相关性，且无需改变现有存储或索引结构。在五个视觉文档检索基准测试中，包括ViDoRe V1-V3、DigitalCorpora-10k、Earnings V2及两个内部数据集，llama-nemotron-embed-vl-1b-v2在图像和图文联合模态下的召回率（Recall@5）均优于前代模型llama-3.2-nemoretriever-1b-vlm-embed-v1，且在纯文本模态上也优于纯文本嵌入模型llama-nemotron-embed-1b-v2。加入reranker后，整体准确率进一步提升7.2%、6.9%和6%。与jina-reranker-m0（仅限非商业使用）和MonoQwen2-VL-v0.1相比，llama-nemotron-rerank-vl-1b-v2在文本和图文联合模态上表现更优，且提供宽松的商业授权，更适合企业部署。技术上，嵌入模型基于17亿参数的Transformer编码器，融合Llama 3.2 1B语言模型与SigLip2 400M视觉编码器，采用对比学习训练，通过均值池化生成2048维向量。重排序模型同样为17亿参数，采用交叉编码架构，通过二分类头与交叉熵损失训练，实现精准相关性判断。实际应用中，Cadence利用该模型实现芯片设计文档的智能检索，工程师可快速定位需修改的规格章节并生成建议；IBM将存储文档按页处理，结合领域术语识别，提升AI对复杂基础设施文档的理解；ServiceNow则通过多模态RAG实现“与PDF对话”功能，保持上下文连贯，提升用户导航效率。开发者可直接将这两款模型集成到现有RAG系统，或在Hugging Face上与其他开源模型结合，构建能真正理解PDF内容的多模态智能代理。更多资讯请关注NVIDIA AI官方渠道。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

微小模型大作为：Llama Nemotron RAG 重塑多模态搜索与视觉文档检索精度

相关链接

Command Palette

微小模型大作为：Llama Nemotron RAG 重塑多模态搜索与视觉文档检索精度

相关链接

Command Palette

微小模型大作为：Llama Nemotron RAG 重塑多模态搜索与视觉文档检索精度

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化