Command Palette
Search for a command to run...
ParseBench 文档解析能力评测数据集
ParseBench 文档解析能力评测数据集由 LlamaIndex 团队于 2024–2025 年发布,相关论文成果为 ParseBench: A Document Parsing Benchmark for AI Agents,旨在推动文档解析从传统 OCR 向结构化理解演进,支持多模态模型与信息抽取系统的评估与优化。 该数据集包含约 2,000 个经人工验证和标注的页面和五个维度的 169,011 条测试规则。这些页面取自公开的企业文档,涵盖保险、金融、政府和其他领域,涵盖 PDF 、扫描图像及包含表格与版面结构等多类型页面,并提供标准化解析结果与人工标注对齐,用于评测模型在结构理解与信息抽取方面的表现。