日期

2 年前

大小

905.81 MB

发布 URL

标签

LaTeX OCR 数据集是一个专注于光学字符识别 (OCR) 领域中的复杂数学公式识别问题的数据集。 LaTeX OCR 数据集包含多个配置，每个配置具有不同的特征和数据划分。例如，「full」配置包含约 100k 的印刷体样本，而「synthetic_handwrite」配置则包含基于印刷体公式使用手写字体合成的 100k 手写体样本本仓库有 5 个数据集：

small 是小数据集，样本数 110 条，用于测试
full 是印刷体约 100k 的完整数据集。实际上样本数略小于 100k，因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX 。
synthetic_handwrite 是手写体 100k 的完整数据集，基于 full 的公式，使用手写字体合成而来，可以视为人类在纸上的手写体。样本数实际上略小于 100k，理由同上。
human_handwrite 是手写体较小数据集，更符合人类在电子屏上的手写体。主要来源于 CROHME 。我们用 LaTeX 的抽象语法树校验过了。
human_handwrite_print 是来自 human_handwrite 的印刷体数据集，公式部分和 human_handwrite 相同，图片部分由公式用 LaTeX 渲染而来。 LaTeX OCR 数据集数据集来源于多个渠道，包括从 https://zenodo.org/record/56198#.V2p0KTXT6eA 和 https://www.isical.ac.in/~crohme/ 收集的数据，以及自行构建的数据。可以用于训练和评估 OCR 模型，特别是在处理复杂数学符号和公式时表现出色。它在学术文献数字化、在线教育、科研助手和个人学习等领域有广泛应用。

LaTeX_OCR.torrent

做种 1正在下载 0已完成 247总下载量 429

LaTeX_OCR/
- README.md
  2.29 KB
- README.txt
  4.59 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

905.81 MB

发布 URL

github.com

标签

OCR

small 是小数据集，样本数 110 条，用于测试
full 是印刷体约 100k 的完整数据集。实际上样本数略小于 100k，因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX 。
synthetic_handwrite 是手写体 100k 的完整数据集，基于 full 的公式，使用手写字体合成而来，可以视为人类在纸上的手写体。样本数实际上略小于 100k，理由同上。
human_handwrite 是手写体较小数据集，更符合人类在电子屏上的手写体。主要来源于 CROHME 。我们用 LaTeX 的抽象语法树校验过了。
human_handwrite_print 是来自 human_handwrite 的印刷体数据集，公式部分和 human_handwrite 相同，图片部分由公式用 LaTeX 渲染而来。 LaTeX OCR 数据集数据集来源于多个渠道，包括从 https://zenodo.org/record/56198#.V2p0KTXT6eA 和 https://www.isical.ac.in/~crohme/ 收集的数据，以及自行构建的数据。可以用于训练和评估 OCR 模型，特别是在处理复杂数学符号和公式时表现出色。它在学术文献数字化、在线教育、科研助手和个人学习等领域有广泛应用。

LaTeX_OCR.torrent

做种 1正在下载 0已完成 247总下载量 429

LaTeX_OCR/
- README.md
  2.29 KB
- README.txt
  4.59 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Open-RL 推理问题数据集

4 个月前

LightOnOCR-mix-0126 文本转录数据集

5 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

905.81 MB

发布 URL

github.com

标签

OCR

small 是小数据集，样本数 110 条，用于测试
full 是印刷体约 100k 的完整数据集。实际上样本数略小于 100k，因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX 。
synthetic_handwrite 是手写体 100k 的完整数据集，基于 full 的公式，使用手写字体合成而来，可以视为人类在纸上的手写体。样本数实际上略小于 100k，理由同上。
human_handwrite 是手写体较小数据集，更符合人类在电子屏上的手写体。主要来源于 CROHME 。我们用 LaTeX 的抽象语法树校验过了。
human_handwrite_print 是来自 human_handwrite 的印刷体数据集，公式部分和 human_handwrite 相同，图片部分由公式用 LaTeX 渲染而来。 LaTeX OCR 数据集数据集来源于多个渠道，包括从 https://zenodo.org/record/56198#.V2p0KTXT6eA 和 https://www.isical.ac.in/~crohme/ 收集的数据，以及自行构建的数据。可以用于训练和评估 OCR 模型，特别是在处理复杂数学符号和公式时表现出色。它在学术文献数字化、在线教育、科研助手和个人学习等领域有广泛应用。

LaTeX_OCR.torrent

做种 1正在下载 0已完成 247总下载量 429

LaTeX_OCR/
- README.md
  2.29 KB
- README.txt
  4.59 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Open-RL 推理问题数据集

4 个月前

LightOnOCR-mix-0126 文本转录数据集

5 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

LaTeX OCR 数学公式识别数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LaTeX OCR 数学公式识别数据集

Open-RL 推理问题数据集

LightOnOCR-mix-0126 文本转录数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LaTeX OCR 数学公式识别数据集

Open-RL 推理问题数据集

LightOnOCR-mix-0126 文本转录数据集

用 AI 构建 AI

HyperAI Newsletters

Open-RL 推理问题数据集

LightOnOCR-mix-0126 文本转录数据集

Open-RL 推理问题数据集

LightOnOCR-mix-0126 文本转录数据集