NVIDIA NeMo Retriever通过VLM技术实现复杂文档数据精准提取
NVIDIA推出了NeMo Retriever Parse,这是一款基于视觉语言模型(VLM)的文档处理工具,旨在将复杂文档转化为可操作的数据。企业经常面临大量非结构化文档数据,如研究报告、合同、财务报表和技术手册,传统OCR技术在处理复杂排版、结构变化和跨页连续性方面存在困难。NeMo Retriever Parse通过先进的布局感知模型,解决了这些问题,能准确识别文档中的标题、页眉、表格、图表和公式等元素,并保持文档的结构和阅读顺序。 该模型采用基于Transformer的视觉编码器-解码器架构,核心是ViT-H视觉编码器和mBART解码器,参数量达9亿,兼顾效率与精度。其统一的分词机制不仅提取文本,还能记录坐标和语义分类,生成包含文本、空间和语义信息的结构化输出。 在训练方面,NeMo Retriever Parse先在大规模数据集arXiv-5M上预训练,再通过多种数据集进行微调,提升模型适应不同文档和标注需求的能力。此外,模型采用多标记训练方法,增强了对结构化序列的预测能力,确保输出内容的连贯性。 测试结果显示,NeMo Retriever Parse在文本和表格提取任务中表现优异。在GOT Dense OCR基准测试中,其文本提取准确率接近满分;在PubTabNet和RD-TableBench两个表格识别基准上,分别取得了80.20和92.20的TEDS和S-TEDS评分,远超其他模型。 目前,NeMo Retriever Parse主要用于英文文档,未来将扩展支持中文和手写文档,并提升对长文档的理解能力。该工具为企业的文档智能处理提供了高效、精准的解决方案,有助于提升信息检索和利用效率。
