HyperAI超神经
17 days ago

视觉引导的分块是你所需要的:增强RAG的多模态文档理解

Tripathi, Vishesh ; Odapally, Tanmay ; Das, Indraneel ; Allu, Uday ; Ahmed, Biddwan
视觉引导的分块是你所需要的:增强RAG的多模态文档理解
摘要

检索增强生成(RAG)系统已经彻底改变了信息检索和问答领域,但传统的基于文本的分块方法在处理复杂文档结构、多页表格、嵌入式图表以及跨页面的上下文依赖时仍面临挑战。本文提出了一种新颖的多模态文档分块方法,该方法利用大型多模态模型(LMMs)批量处理PDF文档,同时保持语义连贯性和结构完整性。我们的方法以可配置的页面批次对文档进行处理,并保留跨批次的上下文信息,从而能够准确处理跨越多个页面的表格、嵌入的视觉元素和程序性内容。我们在一个精心整理的PDF文档数据集上评估了该方法,并使用人工编写的查询进行了测试,结果表明该方法在分块质量和下游RAG性能方面均有显著提升。与传统的纯文本RAG系统相比,我们的视觉引导方法在准确性方面表现更佳,定性分析也显示其在文档结构和语义连贯性的保持上具有明显优势。