OCRFlux-3B: インテリジェントテキスト認識ツールキット
1. チュートリアルの概要

OCRFlux-3Bは、ChatDOCチームが2025年6月17日にリリースしたマルチモーダル大規模言語モデルに基づくツールキットで、PDFや画像をクリーンで読みやすいプレーンテキストのMarkdownテキストに変換するために使用できます。このツールは、ページレベルのテキスト変換機能だけでなく、ページをまたがる表や段落の結合もサポートしており、複雑な文書構造の処理を強力にサポートします。
このチュートリアルでは、リソースとしてRTX 4090カード1枚を使用します。プロジェクトには、PDFドキュメント、画像ドキュメント、複数ファイルの3つのデモサンプルが用意されています。
2. プロジェクト例
PDFドキュメント

画像ドキュメント

複数のファイル

3. 操作手順
1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順
「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

PDFドキュメント

パラメータの説明
- 詳細設定:
- ターゲット イメージ サイズ: 生成されるイメージのサイズを制御するために使用されるターゲット イメージ サイズ。
- 最大ページ再試行回数: PDF ページ解析エラーを処理するために使用される再試行の最大回数。
- ページ間の結合をスキップ: ドキュメント内のページをまたがるコンテンツを処理するために使用されるページ間の結合をスキップします。
画像ドキュメント

複数のファイル

4. 議論
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。
