HyperAI

Docling:文档解析神器

GitHub
Stars

一、教程简介

Docling

Docling  是一个由 IBM 于 2024 年推出的开源多功能文档转换工具,旨在简化和自动化文档格式转换的过程。它支持将多种常见的文件格式(如 PDF 、 Word 、 PPTX 、 Markdown 等)转换为多种不同的输出格式,如文本(Text)、 Markdown 、 Doctags 、 JSON 和 YAML 。

Docling 采用了文档转换和处理的模块化设计,可以根据需要替换不同的转换模式,满足不同需求。

主要功能:

  • 支持将多种文档格式转换为 TextMarkdownDoctagsJSONYAML 格式。
  • 支持多种输入格式,包括 PDF 、 DOCX 、 PPTX 、 MD 、 ASCIIDOC 等。
  • 提供了清晰简洁的接口,方便与其他应用集成。
  • 支持通过 Gradio 构建可视化的界面,允许用户进行交互式文件上传和转换操作。

支持的文件格式:

  • PDF: 可转换为 Text 、 Markdown 、 Doctags 、 JSON 和 YAML 格式。
  • DOCX: 可转换为 Text 、 Markdown 、 Doctags 、 JSON 和 YAML 格式。
  • PPTX: 可转换为 Text 、 Markdown 、 Doctags 、 JSON 和 YAML 格式。
  • Markdown: 可转换为 Text 、 Markdown 、 Doctags 、 JSON 和 YAML 格式。
  • ASCIIDOC: 可转换为 JSON 和 YAML 格式。

二、运行步骤

1. 启动容器

通过 API 地址进入 Web 界面
Web Interface

2. 文件转换

进入 web 界面后,按照以下步骤进行操作:
Lighting Control Steps

三、交流与探讨

🖌️ 如果您发现了优质项目,欢迎在后台留言推荐!此外,我们还建立了教程交流群,欢迎各位小伙伴扫码入群,备注【SD 教程】,与大家一起探讨技术问题,分享应用效果!

Join the Group