Command Palette
Search for a command to run...
Granite-docling-258M:轻量多模态文档处理模型
一、教程简介
Granite-Docling-258M 是由 IBM 于 2025 年 9 月推出的轻量级视觉语言模型,专为高效文档转换设计。模型能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素。模型仅含 258M 参数,性能卓越,成本效益高,支持多语言(包括阿拉伯语、中文和日语)处理。模型使用 DocTags 格式精准描述文档结构,避免信息丢失。 Granite-Docling-258M 能与 Docling 库无缝集成,提供强大的定制化和错误处理能力,适用企业级文档处理,是文档处理领域的强大工具。相关论文成果为「SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion」,相关 blog 为「IBM Granite-Docling: End-to-end document understanding with one tiny model」。
本教程采用资源为单卡 RTX 5090 。
二、项目示例

三、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓
