olmOCR-mix-0225 大规模 PDF 文档数据集
olmOCR-mix-0225 是一个大规模、高质量的 PDF 文档数据集,专为训练和优化光学字符识别 (OCR) 模型而设计。该数据集由 Allen Institute for AI 于 2025 年发布,相关论文成果为「olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models」。
数据集特点
数据集包含约 250k 页 的 PDF 内容,涵盖学术论文、法律文件、手册等多种类型。数据集不仅包含文本内容,还提取了每页中显著元素(如文本块和图像)的坐标信息,这些信息被动态注入模型提示 (Prompt),显著减少了模型的幻觉。该数据集可用于训练、微调或评估自己的 OCR 文档处理流程。
此外,数据集使用 GPT-4o 进行标注,确保了标注的高质量和一致性。数据来源广泛,包括从公共网站爬取的 PDF 文档和互联网档案馆中的书籍。数据集不仅包含文本内容,还提取了每页中显著元素(如文本块和图像)的坐标信息,这些信息被动态注入模型提示 (Prompt),显著减少了模型的幻觉。
olmOCR-mix-0225.torrent
做种 1正在下载 1已完成 43总下载次数 74