Command Palette

Search for a command to run...

LaTeX OCR 数学公式识别数据集

日期

1 年前

大小

905.81 MB

发布地址

github.com

LaTeX OCR 数据集是一个专注于光学字符识别 (OCR) 领域中的复杂数学公式识别问题的数据集。 LaTeX OCR 数据集包含多个配置,每个配置具有不同的特征和数据划分。例如,「full」配置包含约 100k 的印刷体样本,而「synthetic_handwrite」配置则包含基于印刷体公式使用手写字体合成的 100k 手写体样本

本仓库有 5 个数据集:

  1. small 是小数据集,样本数 110 条,用于测试
  2. full 是印刷体约 100k 的完整数据集。实际上样本数略小于 100k,因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX 。
  3. synthetic_handwrite 是手写体 100k 的完整数据集,基于 full 的公式,使用手写字体合成而来,可以视为人类在纸上的手写体。样本数实际上略小于 100k,理由同上。
  4. human_handwrite 是手写体较小数据集,更符合人类在电子屏上的手写体。主要来源于 CROHME 。我们用 LaTeX 的抽象语法树校验过了。
  5. human_handwrite_print 是来自 human_handwrite 的印刷体数据集,公式部分和 human_handwrite 相同,图片部分由公式用 LaTeX 渲染而来。

LaTeX OCR 数据集数据集来源于多个渠道,包括从 https://zenodo.org/record/56198#.V2p0KTXT6eAhttps://www.isical.ac.in/~crohme/ 收集的数据,以及自行构建的数据。可以用于训练和评估 OCR 模型,特别是在处理复杂数学符号和公式时表现出色。它在学术文献数字化、在线教育、科研助手和个人学习等领域有广泛应用。

LaTeX_OCR.torrent
做种 1正在下载 0已完成 208总下载次数 317
  • LaTeX_OCR/
    • README.md
      2.29 KB
    • README.txt
      4.59 KB
      • data/
        • LaTeX_OCR.zip
          905.81 MB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供