Command Palette

Search for a command to run...

Granite-docling-258M:轻量多模态文档处理模型

一、教程简介

Granite-Docling-258M 是由 IBM 于 2025 年 9 月推出的轻量级视觉语言模型,专为高效文档转换设计。模型能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素。模型仅含 258M 参数,性能卓越,成本效益高,支持多语言(包括阿拉伯语、中文和日语)处理。模型使用 DocTags 格式精准描述文档结构,避免信息丢失。 Granite-Docling-258M 能与 Docling 库无缝集成,提供强大的定制化和错误处理能力,适用企业级文档处理,是文档处理领域的强大工具。相关论文成果为「SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion」,相关 blog 为「IBM Granite-Docling: End-to-end document understanding with one tiny model」。

本教程采用资源为单卡 RTX 5090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供