GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

プロジェクト紹介

GOT-OCR-2.0  これは、光学式文字認識 (OCR) の精度と効率の向上に重点を置いた、一般 OCR 理論に基づいたエンドツーエンドの統合モデルです。このプロジェクトは、StepFun、Megvii Technology、中国科学院大学、清華大学の研究チームによって共同で発表されました。関連する論文結果は「一般的な OCR 理論: 統合されたエンドツーエンド モデルによる OCR-2.0 に向けて」は、シーンテキストや文書認識などのさまざまなアプリケーションシナリオに適しています。統合アーキテクチャを採用しており、テキストの多様性と複雑さを効率的に処理できます。 GOT-OCR 2.0 は、シーン テキスト認識をサポートするだけでなく、複数ページのドキュメントも処理できるため、OCR 分野にさらなる柔軟性をもたらします。

GOT-OCR-2.0  特徴は次のとおりです。

  • 強力な汎用性: 普遍的な OCR 理論に基づいて、シーンのテキストや表、数式などの複雑な文書構造を処理できます。
  • エンドツーエンド モデル: 統合されたエンドツーエンド アーキテクチャにより、画像入力からテキスト出力までを統合する OCR プロセス全体が簡素化されます。
  • 効率的なパフォーマンス: 統合された Flash-Attendant テクノロジーにより、認識速度とパフォーマンスが向上します。
  • マルチプラットフォームのサポート: CUDA アクセラレーションをサポートし、GOT-OCR2.0 プラットフォームと統合し、事前トレーニングされたモデルをロードできます。
  • 幅広いアプリケーション: 複数ページのドキュメントやシーンテキストなど、幅広いアプリケーションシナリオに適しています。

エフェクト例


ステップの実行

1. プロジェクトの右上隅にある [クローン] をクリックし、[次へ] をクリックして完了します。 [基本情報] > [計算能力の選択] > [確認]。最後に、「続行」をクリックして、個人コンテナでプロジェクトを開きます。

2. リソースの割り当てが完了すると、バックグラウンドでモデルが自動的に初期化され ()、プラットフォームが提供する API アドレスを直接使用して操作ページにアクセスできます (実名認証が完了する必要があり、認証はありません)。このステップのためにワークスペースを開く必要があります)

3.対象画像をアップロードする