HyperAI超神经

LaTeX OCR 数学公式识别数据集

日期

4 个月前

大小

905.81 MB

发布地址

github.com

LaTeX OCR 数据集是一个专注于光学字符识别 (OCR) 领域中的复杂数学公式识别问题的数据集。 LaTeX OCR 数据集包含多个配置,每个配置具有不同的特征和数据划分。例如,「full」配置包含约 100k 的印刷体样本,而「synthetic_handwrite」配置则包含基于印刷体公式使用手写字体合成的 100k 手写体样本

本仓库有 5 个数据集:

  1. small 是小数据集,样本数 110 条,用于测试
  2. full 是印刷体约 100k 的完整数据集。实际上样本数略小于 100k,因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX 。
  3. synthetic_handwrite 是手写体 100k 的完整数据集,基于 full 的公式,使用手写字体合成而来,可以视为人类在纸上的手写体。样本数实际上略小于 100k,理由同上。
  4. human_handwrite 是手写体较小数据集,更符合人类在电子屏上的手写体。主要来源于 CROHME 。我们用 LaTeX 的抽象语法树校验过了。
  5. human_handwrite_print 是来自 human_handwrite 的印刷体数据集,公式部分和 human_handwrite 相同,图片部分由公式用 LaTeX 渲染而来。

LaTeX OCR 数据集数据集来源于多个渠道,包括从 https://zenodo.org/record/56198#.V2p0KTXT6eAhttps://www.isical.ac.in/~crohme/ 收集的数据,以及自行构建的数据。可以用于训练和评估 OCR 模型,特别是在处理复杂数学符号和公式时表现出色。它在学术文献数字化、在线教育、科研助手和个人学习等领域有广泛应用。

LaTeX_OCR.torrent
做种 2正在下载 0已完成 95总下载次数 124
  • LaTeX_OCR/
    • README.md
      2.29 KB
    • README.txt
      4.59 KB
      • data/
        • LaTeX_OCR.zip
          905.81 MB