HyperAI

NVIDIA推出了新一代多模态检索模型Nemotron ColEmbed V2系列，旨在提升复杂文档中跨文本与图像的精准信息检索能力。该系列包含3B、4B和8B三种规模模型，采用“晚交互”（late-interaction）架构，实现查询与文档间细粒度的多向量匹配，显著优于传统单向量嵌入方式。与以往将整个查询和文档编码为单一向量的方法不同，Nemotron ColEmbed V2对每个查询token与文档中所有token进行独立相似度计算，通过MaxSim操作选取最大相似度并求和，生成最终相关性得分。这一机制虽增加存储开销，但大幅提升了对图表、表格、文字混合文档的语义理解精度。在最新发布的ViDoRe V3企业级多模态文档检索基准测试中，Nemotron ColEmbed V2系列表现卓越：其中nemotron-colembed-vl-8b-v2以63.42的NDCG@10得分位居榜首，4B和3B版本分别位列第3和第6，均为各自参数规模下的最高分模型。该系列模型基于先进的视觉-语言模型构建：3B版本基于SigLIP-Giant和Llama-3.2-3B，8B与4B版本则基于Qwen3-VL系列。训练采用双阶段策略，先在大量文本问答对上微调，再结合文本-图像对进行优化，并引入硬负样本挖掘技术，有效提升检索准确率。相比前代，V2版本在模型融合与合成数据方面实现关键升级：通过后训练模型融合技术整合多个检查点优势，实现类似集成学习的稳定性，且无额外推理延迟；同时大幅扩充多语言合成数据，增强跨语言与复杂文档类型的语义对齐能力。 Nemotron ColEmbed V2适用于对精度要求极高的多模态RAG系统，如企业知识库搜索、智能客服、多媒体检索引擎等场景。用户可通过Hugging Face下载模型，或使用NVIDIA NGC提供的微服务容器快速部署。相关技术也已集成至NVIDIA Enterprise RAG Blueprint，助力开发者构建高性能检索应用。

相关链接

相关链接

相关链接

精确率达 94%，西班牙团队基于 YOLO11 实现自动化近地天体与卫星条纹检测，连续帧之间稳定识别

精确率达 94%，西班牙团队基于 YOLO11 实现自动化近地天体与卫星条纹检测，连续帧之间稳定识别

Command Palette

Nemotron ColEmbed V2 携手 ViDoRe V3 引领多模态检索新纪元

相关链接

Command Palette

Nemotron ColEmbed V2 携手 ViDoRe V3 引领多模态检索新纪元

相关链接

Command Palette

Nemotron ColEmbed V2 携手 ViDoRe V3 引领多模态检索新纪元

相关链接

精确率达 94%，西班牙团队基于 YOLO11 实现自动化近地天体与卫星条纹检测，连续帧之间稳定识别

精确率达 94%，西班牙团队基于 YOLO11 实现自动化近地天体与卫星条纹检测，连续帧之间稳定识别