Google、IBM、Tencent、Xiaohongshu、清華大学によってオープンソース化された、認識精度と効率性を高める軽量アーキテクチャを備えた 6 つの主要な OCR モデルの概要。

人工知能の多くの応用の中で、OCR(光学文字認識)は間違いなく最も成熟した実用的な技術の 1 つです。OCR の主な目的は、画像、スキャンした文書、街の風景、請求書、さらには手書きのテキスト内の文字を、編集可能で検索可能なデジタル テキストに自動的に変換することです。初期のOCRはルールとテンプレートに大きく依存しており、機能が限られており、多くの場合、印刷文字しか認識できませんでした。しかし、ディープラーニング、特に畳み込みニューラルネットワーク(CNN)とシーケンスモデリング手法の導入により、OCRの認識精度と適用範囲は飛躍的に向上しました。
現在、OCR は、金融請求書の自動処理、身分証明書の確認、ナンバープレートの認識、電子書籍のデジタル化、インテリジェント翻訳、医療文書の入力など、さまざまなシナリオで広く使用されています。研究と産業界からも、一連の代表的なモデルとフレームワークが生み出されています。例えば、CRNN(畳み込み再帰型ニューラルネットワーク)は、エンドツーエンドのテキスト認識という古典的なパラダイムの基礎を築き、TPS-ResNet-BiLSTM-Attentionなどの構造は、複雑なシーンにおけるテキスト認識の発展を促進してきました。Googleがリリースした革新的な技術モデルInkSightから、最近リリースされた軽量モデルPOINTS-ReaderやGranite-doclingに至るまで、OCR テクノロジーは、軽量、多言語、マルチモーダルの認識タスクにおいて大きな可能性を示しています。
現在、HyperAI公式サイトの「チュートリアル」セクションでは、オープンソースOCRモデルのチュートリアルを複数公開しています。画像とテキスト情報の効率的な抽出、シーン認識、多言語・多フォーマットマッチングといったOCR技術の強力な機能を体験してみたい方は、hyper.aiのチュートリアルセクションにアクセスして、ワンクリックスタートチュートリアルをご覧ください。
1. POINTSリーダー:蒸留不要でエンドツーエンドの軽量モデル
* オンライン操作:https://go.hyper.ai/amhh4
テンセント、上海交通大学、清華大学が共同で立ち上げたこのモデルは、文書画像からテキストへの変換に特化して設計された軽量な視覚言語モデル(VLM)です。2段階の自己進化フレームワークを用いることで、ミニマリスト的な構造を維持しながら、複雑な中国語および英語の文書(表、数式、複数列レイアウトを含む)を高精度にエンドツーエンドで認識します。
2. Granite-docling-258M: 軽量マルチモーダルドキュメント処理モデル
* オンライン操作:https://go.hyper.ai/BBXlC
* ステップバイステップのチュートリアル:次世代の OCR を再定義: IBM の新しいオープンソース Granite-docling-258M により、「構造 + コンテンツ」のエンドツーエンドの統合理解が可能になります。
2025年9月にIBMが発表したこの軽量ビジュアル言語モデルは、効率的なドキュメント変換を目的として設計されています。わずか2億5,800万個のパラメータで構成されるこのモデルは、卓越したパフォーマンスと費用対効果を提供し、複数の言語(アラビア語、中国語、日本語を含む)をサポートしています。レイアウト、表、数式などの要素を維持しながら、ドキュメントを機械可読形式に変換します。使用されるDocTags形式はドキュメント構造を正確に記述し、情報の損失を防ぎます。
3. dots.ocr: 多言語文書解析モデル
* オンライン操作:https://go.hyper.ai/o0Bm0
* ステップバイステップのチュートリアル:オンラインチュートリアル | 構造化ドキュメントへの依存を打破し、dots.ocr は 17 億のパラメータに基づいて数百の言語で最先端の OCR パフォーマンスを実現します。
小紅書hiラボが2025年8月に発表したこのモデルは、多言語文書レイアウト解析モデルです。17億パラメータのVLM(仮想言語モデル)をベースとし、レイアウト検出とコンテンツ認識を統合することで、良好な読み順を維持します。小型ながらも最先端の性能を実現し、OmniDocBenchなどのベンチマークで優れた結果を達成しています。数式認識性能はDoubao-1.5やGemini2.5-Proに匹敵し、少数言語の解析において大きな優位性を示しています。このモデルはシンプルで効率的なアーキテクチャを誇り、タスク切り替えはプロンプト語の変更のみで行えます。これにより推論速度が速く、様々な文書解析シナリオに適しています。
4. MonkeyOCR: 構造認識関係に基づく文書解析
* オンライン操作:https://go.hyper.ai/2SDMC
* ステップバイステップのチュートリアル:2.6kの星を獲得したMonkeyOCR-3Bは、英語文書解析タスクで72Bモデルを上回り、SOTAパフォーマンスに到達しました。
華中科技大学とKingsoft Officeが共同でオープンソース化したこの文書解析モデルは、非構造化コンテンツを効率的に構造化情報に変換します。精密なレイアウト解析、コンテンツ認識、論理的順序付けを活用することで、解析精度と効率を大幅に向上させます。複雑な文書では平均5.1%、数式解析では15.0%、表解析では8.6%のパフォーマンス向上を実現します。複数ページの処理速度は毎秒0.84ページに達し、類似ツールをはるかに凌駕します。幅広い文書形式と言語に対応しており、論文、教科書、新聞などの用途に適しており、文書のデジタル化と自動化を強力にサポートします。
5. GOT-OCR-2.0: 世界初のユニバーサルエンドツーエンドOCRモデル
* オンライン操作:https://go.hyper.ai/NGNZi
StepFun、Megvii Technology、中国科学院大学、清華大学が共同開発したこの統合エンドツーエンドモデルは、ユニバーサルOCR理論に基づき、統合アーキテクチャを採用することでOCRの精度と効率を大幅に向上させます。柔軟性と適応性に優れ、シーンテキスト認識をサポートし、複数ページの文書を効率的に処理することで、様々な複雑なアプリケーションシナリオに適しています。
6. InkSightデモ: 手書きテキストのデジタル化
* オンライン操作:https://go.hyper.ai/LofxZ
* ステップバイステップのチュートリアル:従来の OCR を超えます! Google の最新成果である InkSight をワンクリックで導入: 手書きのテキストを正確に認識し、中国語と英語の両方で圧力をかける必要はありません
Google Researchが2024年に発表したこの革新的なAI技術は、手書きテキストを継続的に書き換え学習することで人間の読解・学習プロセスを模倣し、テキストの外観と意味に関する理解を蓄積していきます。InkSightが生成したテキストトレースは、人間が最大87%の精度で読み取ることができます。InkSightは、複雑な背景、ぼやけた環境、または低照度環境における手書きテキストの認識精度をさらに向上させます。