HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron ColEmbed V2 携手 ViDoRe V3 引领多模态检索新纪元

NVIDIA推出了新一代多模态检索模型Nemotron ColEmbed V2系列,旨在提升复杂文档中跨文本与图像的精准信息检索能力。该系列包含3B、4B和8B三种规模模型,采用“晚交互”(late-interaction)架构,实现查询与文档间细粒度的多向量匹配,显著优于传统单向量嵌入方式。 与以往将整个查询和文档编码为单一向量的方法不同,Nemotron ColEmbed V2对每个查询token与文档中所有token进行独立相似度计算,通过MaxSim操作选取最大相似度并求和,生成最终相关性得分。这一机制虽增加存储开销,但大幅提升了对图表、表格、文字混合文档的语义理解精度。 在最新发布的ViDoRe V3企业级多模态文档检索基准测试中,Nemotron ColEmbed V2系列表现卓越:其中nemotron-colembed-vl-8b-v2以63.42的NDCG@10得分位居榜首,4B和3B版本分别位列第3和第6,均为各自参数规模下的最高分模型。 该系列模型基于先进的视觉-语言模型构建:3B版本基于SigLIP-Giant和Llama-3.2-3B,8B与4B版本则基于Qwen3-VL系列。训练采用双阶段策略,先在大量文本问答对上微调,再结合文本-图像对进行优化,并引入硬负样本挖掘技术,有效提升检索准确率。 相比前代,V2版本在模型融合与合成数据方面实现关键升级:通过后训练模型融合技术整合多个检查点优势,实现类似集成学习的稳定性,且无额外推理延迟;同时大幅扩充多语言合成数据,增强跨语言与复杂文档类型的语义对齐能力。 Nemotron ColEmbed V2适用于对精度要求极高的多模态RAG系统,如企业知识库搜索、智能客服、多媒体检索引擎等场景。用户可通过Hugging Face下载模型,或使用NVIDIA NGC提供的微服务容器快速部署。相关技术也已集成至NVIDIA Enterprise RAG Blueprint,助力开发者构建高性能检索应用。

相关链接

Nemotron ColEmbed V2 携手 ViDoRe V3 引领多模态检索新纪元 | 热门资讯 | HyperAI超神经