LaTeX OCR 数据集是一个专注于光学字符识别 (OCR) 领域中的复杂数学公式识别问题的数据集。 LaTeX OCR 数据集包含多个配置,每个配置具有不同的特征和数据划分。例如,「full」配置包含约 100k 的印刷体样本,而「synthetic_handwrite」配置则包含基于印刷体公式使用手写字体合成的 100k 手写体样本
本仓库有 5 个数据集:
small
是小数据集,样本数 110 条,用于测试full
是印刷体约 100k 的完整数据集。实际上样本数略小于 100k,因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX 。synthetic_handwrite
是手写体 100k 的完整数据集,基于full
的公式,使用手写字体合成而来,可以视为人类在纸上的手写体。样本数实际上略小于 100k,理由同上。human_handwrite
是手写体较小数据集,更符合人类在电子屏上的手写体。主要来源于CROHME
。我们用 LaTeX 的抽象语法树校验过了。human_handwrite_print
是来自human_handwrite
的印刷体数据集,公式部分和human_handwrite
相同,图片部分由公式用 LaTeX 渲染而来。
LaTeX OCR 数据集数据集来源于多个渠道,包括从 https://zenodo.org/record/56198#.V2p0KTXT6eA
和 https://www.isical.ac.in/~crohme/
收集的数据,以及自行构建的数据。可以用于训练和评估 OCR 模型,特别是在处理复杂数学符号和公式时表现出色。它在学术文献数字化、在线教育、科研助手和个人学习等领域有广泛应用。
LaTeX_OCR.torrent
做种 2正在下载 0已完成 95总下载次数 124