HyperAIHyperAI

Command Palette

Search for a command to run...

LightOnOCR-mix-0126 文本转录数据集

日期

3 小时前

数据集组织

论文 URL

2601.14251

许可证

Other

LightOnOCR-mix-0126 是由 LightOn 于 2026 年发布的一个大规模的 OCR 文本转录数据集,相关论文成果为:LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR,旨在为端到端 OCR 和文档理解模型提供监督,输出自然有序的全页转录文本。

该数据集包含训练集与验证集两部分,每个样本对应一个文档页面的文本转录结果,内容涵盖按自然阅读顺序组织的页面文本(输出格式包括 Markdown 、 LaTeX 数学公式及 HTML 表格等)以及相应的结构化标记,覆盖段落、标题、列表与表格等多类型页面内容。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供