Command Palette
Search for a command to run...
LightOnOCR-mix-0126 文本转录数据集
LightOnOCR-mix-0126 是由 LightOn 于 2026 年发布的一个大规模的 OCR 文本转录数据集,相关论文成果为:LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR,旨在为端到端 OCR 和文档理解模型提供监督,输出自然有序的全页转录文本。
该数据集包含训练集与验证集两部分,每个样本对应一个文档页面的文本转录结果,内容涵盖按自然阅读顺序组织的页面文本(输出格式包括 Markdown 、 LaTeX 数学公式及 HTML 表格等)以及相应的结构化标记,覆盖段落、标题、列表与表格等多类型页面内容。