ドクリング: ドキュメント解析アーティファクト
1. チュートリアルの概要

Doclingは、IBMが2024年にリリースしたオープンソースの多機能ドキュメント変換ツールで、ドキュメント形式の変換プロセスを簡素化および自動化するように設計されています。PDF、Word、PPTX、Markdownなどの一般的なファイル形式を、テキスト、Markdown、Doctags、JSON、YAMLなどのさまざまな出力形式に変換できます。
Docling はドキュメントの変換と処理にモジュール設計を採用しており、さまざまなニーズを満たすために必要に応じてさまざまな変換モードを置き換えることができます。
主な機能:
- 複数のドキュメント形式の変換をサポート 文章 、 マークダウン 、 ドクタグ 、 JSON 、 YAML 形式。
- PDF、DOCX、PPTX、MD、ASCIIDOC などの複数の入力形式をサポートします。
- 他のアプリケーションとの統合を容易にする、明確で簡潔なインターフェイスを提供します。
- Gradio を介したビジュアル インターフェイスの構築をサポートし、ユーザーが対話型のファイル アップロードと変換操作を実行できるようにします。
サポートされているファイル形式:
- PDF: テキスト、マークダウン、Doctag、JSON、YAML 形式に変換可能。
- DOCX: テキスト、マークダウン、Doctag、JSON、YAML 形式に変換可能。
- PPTX: テキスト、マークダウン、Doctag、JSON、YAML 形式に変換可能。
- マークダウン: テキスト、マークダウン、Doctag、JSON、YAML 形式に変換可能。
- アスキードック: JSON および YAML 形式に変換可能。
2. 操作手順
1. コンテナを起動します
通过 API 地址进入 Web 界面

2. ファイル変換
进入 web 界面后,按照以下步骤进行操作:

引用情報
このプロジェクトの引用情報は次のとおりです。
@techreport{Docling,
author = {Deep Search Team},
month = {8},
title = {Docling Technical Report},
url = {https://arxiv.org/abs/2408.09869},
eprint = {2408.09869},
doi = {10.48550/arXiv.2408.09869},
version = {1.0.0},
year = {2024}
}