14 天前
我们在评估文档检索增强生成的正确道路上吗?
Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin

摘要
利用多模态大语言模型(MLLMs)的检索增强生成(RAG)系统在复杂文档理解任务中展现出巨大潜力,但其发展目前严重受限于评估体系的不足。现有的评估基准通常仅关注文档RAG系统中的某个特定环节,且多采用合成数据,其真实答案与证据标签不完整,难以反映现实场景中的瓶颈与挑战。为克服这些局限,我们提出Double-Bench:一个大规模、多语言、多模态的评估体系,能够对文档RAG系统中的各个组件进行细粒度评估。该基准包含3,276份文档(共72,880页),覆盖6种语言和4类文档类型,涵盖5,168个单跳与多跳查询,并支持动态更新机制,以应对潜在的数据污染问题。所有查询均基于全面扫描的证据页面生成,并经人工专家验证,确保数据质量与完整性达到最高标准。我们在9种前沿嵌入模型、4种MLLMs以及4种端到端文档RAG框架上开展全面实验,结果表明文本嵌入模型与视觉嵌入模型之间的性能差距正在缩小,凸显了构建更强大文档检索模型的迫切需求。此外,我们的研究还揭示了当前文档RAG框架中存在的“过度自信”问题——即使缺乏证据支持,系统仍倾向于生成答案。我们希望这一完全开源的Double-Bench能为未来先进文档RAG系统的研究提供严谨可靠的基础。后续我们将持续收集最新语料,并每年发布新版评估基准。