OCRFlux-3B: インテリジェントテキスト認識ツールキット

1. チュートリアルの概要

GitHubスター

OCRFlux-3Bは、ChatDOCチームが2025年6月17日にリリースしたマルチモーダル大規模言語モデルに基づくツールキットで、PDFや画像をクリーンで読みやすいプレーンテキストのMarkdownテキストに変換するために使用できます。このツールは、ページレベルのテキスト変換機能だけでなく、ページをまたがる表や段落の結合もサポートしており、複雑な文書構造の処理を強力にサポートします。

このチュートリアルでは、リソースとしてRTX 4090カード1枚を使用します。プロジェクトには、PDFドキュメント、画像ドキュメント、複数ファイルの3つのデモサンプルが用意されています。

2. プロジェクト例

PDFドキュメント

画像ドキュメント

複数のファイル

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

PDFドキュメント

パラメータの説明

  • 詳細設定:
    • ターゲット イメージ サイズ: 生成されるイメージのサイズを制御するために使用されるターゲット イメージ サイズ。
    • 最大ページ再試行回数: PDF ページ解析エラーを処理するために使用される再試行の最大回数。
    • ページ間の結合をスキップ: ドキュメント内のページをまたがるコンテンツを処理するために使用されるページ間の結合をスキップします。

画像ドキュメント

複数のファイル

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。