5 个月前

统一多模态

自然语言处理

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

摘要

我们提出 SmolDocling，一个超轻量级的视觉-语言模型，专为端到端文档转换而设计。该模型通过生成一种名为 DocTags 的新型通用标记格式，全面处理整页文档内容，能够以完整上下文和精确位置信息捕捉页面中的所有元素。与依赖大型基础模型或采用人工设计的多模型流水线集成方案的现有方法不同，SmolDocling 在仅 256M 参数的视觉-语言模型中，实现了端到端的文档转换，能够精准还原文档内容、结构及空间位置信息。SmolDocling 在多种文档类型中均表现出卓越的鲁棒性，可准确复现代码段落、表格、公式、图表、列表等多种文档特征，涵盖商业文档、学术论文、技术报告、专利文件及表单等广泛类型，显著超越了当前多数研究集中于科学论文的局限。此外，我们还贡献了全新的公开数据集，涵盖图表、表格、公式和代码识别任务，为相关研究提供支持。实验结果表明，SmolDocling 的性能可与参数量高达其 27 倍的其他视觉-语言模型相媲美，同时大幅降低计算资源需求。目前，该模型已可获取，相关数据集也即将公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

统一多模态

自然语言处理

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

摘要

我们提出 SmolDocling，一个超轻量级的视觉-语言模型，专为端到端文档转换而设计。该模型通过生成一种名为 DocTags 的新型通用标记格式，全面处理整页文档内容，能够以完整上下文和精确位置信息捕捉页面中的所有元素。与依赖大型基础模型或采用人工设计的多模型流水线集成方案的现有方法不同，SmolDocling 在仅 256M 参数的视觉-语言模型中，实现了端到端的文档转换，能够精准还原文档内容、结构及空间位置信息。SmolDocling 在多种文档类型中均表现出卓越的鲁棒性，可准确复现代码段落、表格、公式、图表、列表等多种文档特征，涵盖商业文档、学术论文、技术报告、专利文件及表单等广泛类型，显著超越了当前多数研究集中于科学论文的局限。此外，我们还贡献了全新的公开数据集，涵盖图表、表格、公式和代码识别任务，为相关研究提供支持。实验结果表明，SmolDocling 的性能可与参数量高达其 27 倍的其他视觉-语言模型相媲美，同时大幅降低计算资源需求。目前，该模型已可获取，相关数据集也即将公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供