日付

10ヶ月前

サイズ

360.51 MB

タグ

OCR

ライセンス

Apache 2.0

1. チュートリアルの概要

RolmOCR は、Qwen2.5-VL-7B ビジュアル言語モデルに基づいて、2025 年 4 月に Reducto AI チームによって開発されたオープンソースの OCR ツールです。メモリ使用量を抑えながら、画像や PDF からテキストを素早く抽出できるため、olmOCR などの同様のツールよりも優れています。 RolmOCR は PDF メタデータに依存せず、プロセスを合理化し、手書きのメモや学術論文など、さまざまな種類のドキュメントをサポートします。 Reducto チームは、モデルの更新とトレーニングデータの最適化を通じて、ドキュメントのデジタル化の効率を向上させることを目指しています。

このチュートリアルでは、デモとして RolmOCR を使用し、イメージには vllm 0.7.3-2204 を使用し、コンピューティングリソースには RTX 4090 を使用します。

2. 機能一覧

高速テキスト抽出: 大量のドキュメントに適した高速処理で画像や PDF からテキストを抽出します。
さまざまなドキュメントをサポート: 手書きのメモ、印刷されたドキュメント、複雑な表を認識できます。
オープンソースかつ無料: Apache 2.0 ライセンスに基づいてリリースされており、コードは自由にダウンロードして適応できます。
メモリ使用量が少ない: olmOCR よりもリソース効率が高く、実行時のコンピュータ要件が低くなります。
メタデータは不要: PDF の追加情報に依存せずに、元のドキュメントを直接操作します。
傾斜した文書の認識の強化: 15% はトレーニングデータ内で回転され、正でない角度の文書への適応性が向上します。
最新モデルをベースにQwen2.5-VL-7Bを使用し、認識精度と効率を向上。

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。 1～2分ほど待ってからページを更新してください。

2. 機能デモンストレーション

引用情報

GitHubユーザーに感謝ボーイズウーこのチュートリアルを作成するためのプロジェクト参照情報は次のとおりです。

@misc{RolmOCR,
  author = {Reducto AI},
  title = {RolmOCR: A Faster, Lighter Open Source OCR Model},
  year = {2025},
}

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行

日付

10ヶ月前

サイズ

360.51 MB

タグ

OCR

ライセンス

Apache 2.0

1. チュートリアルの概要

このチュートリアルでは、デモとして RolmOCR を使用し、イメージには vllm 0.7.3-2204 を使用し、コンピューティングリソースには RTX 4090 を使用します。

2. 機能一覧

高速テキスト抽出: 大量のドキュメントに適した高速処理で画像や PDF からテキストを抽出します。
さまざまなドキュメントをサポート: 手書きのメモ、印刷されたドキュメント、複雑な表を認識できます。
オープンソースかつ無料: Apache 2.0 ライセンスに基づいてリリースされており、コードは自由にダウンロードして適応できます。
メモリ使用量が少ない: olmOCR よりもリソース効率が高く、実行時のコンピュータ要件が低くなります。
メタデータは不要: PDF の追加情報に依存せずに、元のドキュメントを直接操作します。
傾斜した文書の認識の強化: 15% はトレーニングデータ内で回転され、正でない角度の文書への適応性が向上します。
最新モデルをベースにQwen2.5-VL-7Bを使用し、認識精度と効率を向上。

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。 1～2分ほど待ってからページを更新してください。

2. 機能デモンストレーション

引用情報

GitHubユーザーに感謝ボーイズウーこのチュートリアルを作成するためのプロジェクト参照情報は次のとおりです。

@misc{RolmOCR,
  author = {Reducto AI},
  title = {RolmOCR: A Faster, Lighter Open Source OCR Model},
  year = {2025},
}

交流とディスカッション

Chandra: 高精度ドキュメントOCR

2ヶ月前

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

2ヶ月前

LightOnOCR-1Bインターフェース: 複雑な文書を高速に読み取るOCRエンジン

2ヶ月前

DeepSeek-OCR 2 ビジュアル因果フロー

10日前

LightOnOCR-2-1B 軽量、高性能エンドツーエンドOCRモデル

7日前

OCRFlux-3B: インテリジェントテキスト認識ツールキット

3ヶ月前

Microsoftのオープンソースドキュメント変換ツール、MarkItDown

2ヶ月前

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

3ヶ月前

Krea-realtime-video: リアルタイムビデオ生成モデル

3ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

1. チュートリアルの概要

2. 機能一覧

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 機能デモンストレーション

引用情報

交流とディスカッション

AIでAIを構築

HyperAI Newsletters

Command Palette

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

1. チュートリアルの概要

2. 機能一覧

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 機能デモンストレーション

引用情報

交流とディスカッション

関連 ノートブック

Chandra: 高精度ドキュメントOCR

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

LightOnOCR-1Bインターフェース: 複雑な文書を高速に読み取るOCRエンジン

DeepSeek-OCR 2 ビジュアル因果フロー

LightOnOCR-2-1B 軽量、高性能エンドツーエンドOCRモデル

OCRFlux-3B: インテリジェントテキスト認識ツールキット

Microsoftのオープンソースドキュメント変換ツール、MarkItDown

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

Krea-realtime-video: リアルタイムビデオ生成モデル

AIでAIを構築

HyperAI Newsletters

Command Palette

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

1. チュートリアルの概要

2. 機能一覧

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 機能デモンストレーション

引用情報

交流とディスカッション

関連 ノートブック

Chandra: 高精度ドキュメントOCR

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

LightOnOCR-1Bインターフェース: 複雑な文書を高速に読み取るOCRエンジン

DeepSeek-OCR 2 ビジュアル因果フロー

LightOnOCR-2-1B 軽量、高性能エンドツーエンドOCRモデル

OCRFlux-3B: インテリジェントテキスト認識ツールキット

Microsoftのオープンソースドキュメント変換ツール、MarkItDown

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

Krea-realtime-video: リアルタイムビデオ生成モデル

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

Chandra: 高精度ドキュメントOCR

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

LightOnOCR-1Bインターフェース: 複雑な文書を高速に読み取るOCRエンジン

DeepSeek-OCR 2 ビジュアル因果フロー

LightOnOCR-2-1B 軽量、高性能エンドツーエンドOCRモデル

OCRFlux-3B: インテリジェントテキスト認識ツールキット

Microsoftのオープンソースドキュメント変換ツール、MarkItDown

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

Krea-realtime-video: リアルタイムビデオ生成モデル

関連 ノートブック

Chandra: 高精度ドキュメントOCR

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

LightOnOCR-1Bインターフェース: 複雑な文書を高速に読み取るOCRエンジン

DeepSeek-OCR 2 ビジュアル因果フロー

LightOnOCR-2-1B 軽量、高性能エンドツーエンドOCRモデル

OCRFlux-3B: インテリジェントテキスト認識ツールキット

Microsoftのオープンソースドキュメント変換ツール、MarkItDown

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

Krea-realtime-video: リアルタイムビデオ生成モデル

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック