1. チュートリアルの概要

OCRFlux-3Bは、ChatDOCチームが2025年6月17日にリリースしたマルチモーダル大規模言語モデルに基づくツールキットで、PDFや画像をクリーンで読みやすいプレーンテキストのMarkdownテキストに変換するために使用できます。このツールは、ページレベルのテキスト変換機能だけでなく、ページをまたがる表や段落の結合もサポートしており、複雑な文書構造の処理を強力にサポートします。

このチュートリアルでは、リソースとしてRTX 4090カード1枚を使用します。プロジェクトには、PDFドキュメント、画像ドキュメント、複数ファイルの3つのデモサンプルが用意されています。

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

PDFドキュメント

パラメータの説明

詳細設定:

ターゲットイメージサイズ: 生成されるイメージのサイズを制御するために使用されるターゲットイメージサイズ。
最大ページ再試行回数: PDF ページ解析エラーを処理するために使用される再試行の最大回数。
ページ間の結合をスキップ: ドキュメント内のページをまたがるコンテンツを処理するために使用されるページ間の結合をスキップします。

画像ドキュメント

複数のファイル

HyperAI

このNotebookを実行 Discordで議論

日付

3ヶ月前

サイズ

3.36 MB

タグ

OCR

ライセンス

Apache 2.0

GitHub

chatdoc-com/OCRFlux

1. チュートリアルの概要

このチュートリアルでは、リソースとしてRTX 4090カード1枚を使用します。プロジェクトには、PDFドキュメント、画像ドキュメント、複数ファイルの3つのデモサンプルが用意されています。

2. プロジェクト例

PDFドキュメント

画像ドキュメント

複数のファイル

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

PDFドキュメント

パラメータの説明

詳細設定:
- ターゲットイメージサイズ: 生成されるイメージのサイズを制御するために使用されるターゲットイメージサイズ。
- 最大ページ再試行回数: PDF ページ解析エラーを処理するために使用される再試行の最大回数。
- ページ間の結合をスキップ: ドキュメント内のページをまたがるコンテンツを処理するために使用されるページ間の結合をスキップします。

画像ドキュメント

複数のファイル

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

3ヶ月前

サイズ

3.36 MB

タグ

OCR

ライセンス

Apache 2.0

GitHub

chatdoc-com/OCRFlux

1. チュートリアルの概要

このチュートリアルでは、リソースとしてRTX 4090カード1枚を使用します。プロジェクトには、PDFドキュメント、画像ドキュメント、複数ファイルの3つのデモサンプルが用意されています。

2. プロジェクト例

PDFドキュメント

画像ドキュメント

複数のファイル

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

PDFドキュメント

パラメータの説明

詳細設定:
- ターゲットイメージサイズ: 生成されるイメージのサイズを制御するために使用されるターゲットイメージサイズ。
- 最大ページ再試行回数: PDF ページ解析エラーを処理するために使用される再試行の最大回数。
- ページ間の結合をスキップ: ドキュメント内のページをまたがるコンテンツを処理するために使用されるページ間の結合をスキップします。

画像ドキュメント

複数のファイル

ドクリング: ドキュメント解析アーティファクト

2ヶ月前

Chandra: 高精度ドキュメントOCR

2ヶ月前

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

2ヶ月前

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

3ヶ月前

PaddleOCR-VL: マルチモーダルドキュメント解析

3ヶ月前

Microsoftのオープンソースドキュメント変換ツール、MarkItDown

2ヶ月前

Krea-realtime-video: リアルタイムビデオ生成モデル

3ヶ月前

ROCKET-2: 3Dゲームゼロショット転送

2ヶ月前

Depth-Anything-3: あらゆる視点から視覚空間を復元する

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

OCRFlux-3B: インテリジェントテキスト認識ツールキット

1. チュートリアルの概要

2. プロジェクト例

PDFドキュメント

画像ドキュメント

複数のファイル

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

PDFドキュメント

画像ドキュメント

複数のファイル

AIでAIを構築

HyperAI Newsletters

Command Palette

OCRFlux-3B: インテリジェントテキスト認識ツールキット

1. チュートリアルの概要

2. プロジェクト例

PDFドキュメント

画像ドキュメント

複数のファイル

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

PDFドキュメント

画像ドキュメント

複数のファイル

関連 ノートブック

ドクリング: ドキュメント解析アーティファクト

Chandra: 高精度ドキュメントOCR

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

PaddleOCR-VL: マルチモーダルドキュメント解析

Microsoftのオープンソースドキュメント変換ツール、MarkItDown

Krea-realtime-video: リアルタイムビデオ生成モデル

ROCKET-2: 3Dゲームゼロショット転送

Depth-Anything-3: あらゆる視点から視覚空間を復元する

AIでAIを構築

HyperAI Newsletters

Command Palette

OCRFlux-3B: インテリジェントテキスト認識ツールキット

1. チュートリアルの概要

2. プロジェクト例

PDFドキュメント

画像ドキュメント

複数のファイル

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

PDFドキュメント

画像ドキュメント

複数のファイル

関連 ノートブック

ドクリング: ドキュメント解析アーティファクト

Chandra: 高精度ドキュメントOCR

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

PaddleOCR-VL: マルチモーダルドキュメント解析

Microsoftのオープンソースドキュメント変換ツール、MarkItDown

Krea-realtime-video: リアルタイムビデオ生成モデル

ROCKET-2: 3Dゲームゼロショット転送

Depth-Anything-3: あらゆる視点から視覚空間を復元する

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

ドクリング: ドキュメント解析アーティファクト

Chandra: 高精度ドキュメントOCR

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

PaddleOCR-VL: マルチモーダルドキュメント解析

Microsoftのオープンソースドキュメント変換ツール、MarkItDown

Krea-realtime-video: リアルタイムビデオ生成モデル

ROCKET-2: 3Dゲームゼロショット転送

Depth-Anything-3: あらゆる視点から視覚空間を復元する

関連 ノートブック

ドクリング: ドキュメント解析アーティファクト

Chandra: 高精度ドキュメントOCR

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック