8 个月前

检索增强生成

自然语言处理

Tripathi Vishesh Odapally Tanmay Das Indraneel Allu Uday Ahmed Biddwan

摘要

检索增强生成（RAG）系统已经彻底改变了信息检索和问答领域，但传统的基于文本的分块方法在处理复杂文档结构、多页表格、嵌入式图表以及跨页面的上下文依赖时仍面临挑战。本文提出了一种新颖的多模态文档分块方法，该方法利用大型多模态模型（LMMs）批量处理PDF文档，同时保持语义连贯性和结构完整性。我们的方法以可配置的页面批次对文档进行处理，并保留跨批次的上下文信息，从而能够准确处理跨越多个页面的表格、嵌入的视觉元素和程序性内容。我们在一个精心整理的PDF文档数据集上评估了该方法，并使用人工编写的查询进行了测试，结果表明该方法在分块质量和下游RAG性能方面均有显著提升。与传统的纯文本RAG系统相比，我们的视觉引导方法在准确性方面表现更佳，定性分析也显示其在文档结构和语义连贯性的保持上具有明显优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

检索增强生成

自然语言处理

Tripathi Vishesh Odapally Tanmay Das Indraneel Allu Uday Ahmed Biddwan

摘要

检索增强生成（RAG）系统已经彻底改变了信息检索和问答领域，但传统的基于文本的分块方法在处理复杂文档结构、多页表格、嵌入式图表以及跨页面的上下文依赖时仍面临挑战。本文提出了一种新颖的多模态文档分块方法，该方法利用大型多模态模型（LMMs）批量处理PDF文档，同时保持语义连贯性和结构完整性。我们的方法以可配置的页面批次对文档进行处理，并保留跨批次的上下文信息，从而能够准确处理跨越多个页面的表格、嵌入的视觉元素和程序性内容。我们在一个精心整理的PDF文档数据集上评估了该方法，并使用人工编写的查询进行了测试，结果表明该方法在分块质量和下游RAG性能方面均有显著提升。与传统的纯文本RAG系统相比，我们的视觉引导方法在准确性方面表现更佳，定性分析也显示其在文档结构和语义连贯性的保持上具有明显优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供