日付

1年前

サイズ

743.26 MB

タグ

OCR

GitHub

Ucas-HaoranWei/GOT-OCR2.0/

論文URL

2409.01704

プロジェクト紹介

GOT-OCR-2.0 これは、光学式文字認識（OCR）の精度と効率の向上に焦点を当てた、汎用OCR理論に基づく統合エンドツーエンドモデルです。このプロジェクトは、StepFun、Megvii Technology、中国科学院大学、清華大学の研究チームによって共同で発表され、関連論文は以下の通りです。一般的な OCR 理論: 統合されたエンドツーエンドモデルによる OCR-2.0 に向けてシーンテキスト認識や文書認識など、様々なアプリケーションシナリオに適しています。統合アーキテクチャを採用し、テキストの多様性と複雑性を効率的に処理できます。GOT-OCR 2.0は、シーンテキスト認識だけでなく、複数ページの文書にも対応しており、OCR分野にさらなる柔軟性をもたらします。

GOT-OCR-2.0 特徴は次のとおりです。

強力な汎用性: 普遍的な OCR 理論に基づいて、シーンのテキストや表、数式などの複雑な文書構造を処理できます。
エンドツーエンドモデル: 統合されたエンドツーエンドアーキテクチャにより、画像入力からテキスト出力までを統合する OCR プロセス全体が簡素化されます。
効率的なパフォーマンス: 統合された Flash-Attendant テクノロジーにより、認識速度とパフォーマンスが向上します。
マルチプラットフォームのサポート: CUDA アクセラレーションをサポートし、GOT-OCR2.0 プラットフォームと統合し、事前トレーニングされたモデルをロードできます。
幅広いアプリケーション: 複数ページのドキュメントやシーンテキストなど、幅広いアプリケーションシナリオに適しています。

エフェクト例

ステップの実行

1. プロジェクトの右上隅にある [クローン] をクリックし、[次へ] をクリックして完了します。 [基本情報] > [計算能力の選択] > [確認]。最後に、「続行」をクリックして、個人コンテナでプロジェクトを開きます。

2. リソースの割り当てが完了すると、バックグラウンドでモデルが自動的に初期化され ()、プラットフォームが提供する API アドレスを直接使用して操作ページにアクセスできます (実名認証が完了する必要があり、認証はありません)。このステップのためにワークスペースを開く必要があります)

3.対象画像をアップロードする

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

1年前

サイズ

743.26 MB

タグ

OCR

GitHub

Ucas-HaoranWei/GOT-OCR2.0/

論文URL

2409.01704

プロジェクト紹介

GOT-OCR-2.0 特徴は次のとおりです。

強力な汎用性: 普遍的な OCR 理論に基づいて、シーンのテキストや表、数式などの複雑な文書構造を処理できます。
エンドツーエンドモデル: 統合されたエンドツーエンドアーキテクチャにより、画像入力からテキスト出力までを統合する OCR プロセス全体が簡素化されます。
効率的なパフォーマンス: 統合された Flash-Attendant テクノロジーにより、認識速度とパフォーマンスが向上します。
マルチプラットフォームのサポート: CUDA アクセラレーションをサポートし、GOT-OCR2.0 プラットフォームと統合し、事前トレーニングされたモデルをロードできます。
幅広いアプリケーション: 複数ページのドキュメントやシーンテキストなど、幅広いアプリケーションシナリオに適しています。

エフェクト例

ステップの実行

1. プロジェクトの右上隅にある [クローン] をクリックし、[次へ] をクリックして完了します。 [基本情報] > [計算能力の選択] > [確認]。最後に、「続行」をクリックして、個人コンテナでプロジェクトを開きます。

2. リソースの割り当てが完了すると、バックグラウンドでモデルが自動的に初期化され ()、プラットフォームが提供する API アドレスを直接使用して操作ページにアクセスできます (実名認証が完了する必要があり、認証はありません)。このステップのためにワークスペースを開く必要があります)

3.対象画像をアップロードする

Chandra: 高精度ドキュメントOCR

2ヶ月前

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

2ヶ月前

LightOnOCR-1Bインターフェース: 複雑な文書を高速に読み取るOCRエンジン

2ヶ月前

DeepSeek-OCR 2 ビジュアル因果フロー

10日前

LightOnOCR-2-1B 軽量、高性能エンドツーエンドOCRモデル

7日前

PaddleOCR-VL: マルチモーダルドキュメント解析

3ヶ月前

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

2ヶ月前

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

3ヶ月前

Supertonic: ONNXに基づく高速TTS音声合成モデル

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

プロジェクト紹介

エフェクト例

ステップの実行

1. プロジェクトの右上隅にある [クローン] をクリックし、[次へ] をクリックして完了します。 [基本情報] > [計算能力の選択] > [確認]。最後に、「続行」をクリックして、個人コンテナでプロジェクトを開きます。

3.対象画像をアップロードする

AIでAIを構築

HyperAI Newsletters

Command Palette

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

プロジェクト紹介

エフェクト例

ステップの実行

1. プロジェクトの右上隅にある [クローン] をクリックし、[次へ] をクリックして完了します。 [基本情報] > [計算能力の選択] > [確認]。最後に、「続行」をクリックして、個人コンテナでプロジェクトを開きます。

3.対象画像をアップロードする

関連 ノートブック

Chandra: 高精度ドキュメントOCR

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

LightOnOCR-1Bインターフェース: 複雑な文書を高速に読み取るOCRエンジン

DeepSeek-OCR 2 ビジュアル因果フロー

LightOnOCR-2-1B 軽量、高性能エンドツーエンドOCRモデル

PaddleOCR-VL: マルチモーダルドキュメント解析

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

Supertonic: ONNXに基づく高速TTS音声合成モデル

AIでAIを構築

HyperAI Newsletters

Command Palette

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

プロジェクト紹介

エフェクト例

ステップの実行

1. プロジェクトの右上隅にある [クローン] をクリックし、[次へ] をクリックして完了します。 [基本情報] > [計算能力の選択] > [確認]。最後に、「続行」をクリックして、個人コンテナでプロジェクトを開きます。

3.対象画像をアップロードする

関連 ノートブック

Chandra: 高精度ドキュメントOCR

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

LightOnOCR-1Bインターフェース: 複雑な文書を高速に読み取るOCRエンジン

DeepSeek-OCR 2 ビジュアル因果フロー

LightOnOCR-2-1B 軽量、高性能エンドツーエンドOCRモデル

PaddleOCR-VL: マルチモーダルドキュメント解析

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

Supertonic: ONNXに基づく高速TTS音声合成モデル

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

Chandra: 高精度ドキュメントOCR

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

LightOnOCR-1Bインターフェース: 複雑な文書を高速に読み取るOCRエンジン

DeepSeek-OCR 2 ビジュアル因果フロー

LightOnOCR-2-1B 軽量、高性能エンドツーエンドOCRモデル

PaddleOCR-VL: マルチモーダルドキュメント解析

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

Supertonic: ONNXに基づく高速TTS音声合成モデル

関連 ノートブック

Chandra: 高精度ドキュメントOCR

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

LightOnOCR-1Bインターフェース: 複雑な文書を高速に読み取るOCRエンジン

DeepSeek-OCR 2 ビジュアル因果フロー

LightOnOCR-2-1B 軽量、高性能エンドツーエンドOCRモデル

PaddleOCR-VL: マルチモーダルドキュメント解析

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

Supertonic: ONNXに基づく高速TTS音声合成モデル

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック