HyperAI超神経

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

1. チュートリアルの概要

RolmOCR は、Qwen2.5-VL-7B ビジュアル言語モデルに基づいて、2025 年 4 月に Reducto AI チームによって開発されたオープンソースの OCR ツールです。メモリ使用量を抑えながら、画像や PDF からテキストを素早く抽出できるため、olmOCR などの同様のツールよりも優れています。 RolmOCR は PDF メタデータに依存せず、プロセスを合理化し、手書きのメモや学術論文など、さまざまな種類のドキュメントをサポートします。 Reducto チームは、モデルの更新とトレーニング データの最適化を通じて、ドキュメントのデジタル化の効率を向上させることを目指しています。

このチュートリアルでは、デモとして RolmOCR を使用し、イメージには vllm 0.7.3-2204 を使用し、コンピューティング リソースには RTX 4090 を使用します。

2. 機能一覧

  • 高速テキスト抽出: 大量のドキュメントに適した高速処理で画像や PDF からテキストを抽出します。
  • さまざまなドキュメントをサポート: 手書きのメモ、印刷されたドキュメント、複雑な表を認識できます。
  • オープンソースかつ無料: Apache 2.0 ライセンスに基づいてリリースされており、コードは自由にダウンロードして適応できます。
  • メモリ使用量が少ない: olmOCR よりもリソース効率が高く、実行時のコンピュータ要件が低くなります。
  • メタデータは不要: PDF の追加情報に依存せずに、元のドキュメントを直接操作します。
  • 傾斜した文書の認識の強化: 15% はトレーニング データ内で回転され、正でない角度の文書への適応性が向上します。
  • 最新モデルをベースにQwen2.5-VL-7Bを使用し、認識精度と効率を向上。

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。 1~2分ほど待ってからページを更新してください。

2. 機能デモンストレーション

引用情報

GitHubユーザーに感謝 ボーイズウー  このチュートリアルを作成するためのプロジェクト参照情報は次のとおりです。

@misc{RolmOCR,
  author = {Reducto AI},
  title = {RolmOCR: A Faster, Lighter Open Source OCR Model},
  year = {2025},
}

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。