日付

8ヶ月前

タグ

OCR

RTX 5090

論文URL

2510.18234

ライセンス

MIT

GitHub

deepseek-ai/DeepSeek-OCR23.5k

1. チュートリアルの概要

DeepSeek社が2025年10月にリリースしたDeepSeek-OCRは、画像から長いコンテキストを圧縮する実現可能性に関する予備的な研究です。コアエンジンであるDeepEncoderは、高解像度の入力において高い圧縮率を達成しながら低い活性化レベルを維持し、画像トークンの数を制御可能かつ最適化された範囲内に維持することを目指しています。実験では、テキストトークンの数が画像トークンの数の10倍を超えない場合（つまり、圧縮率<10倍）、モデルは971 TP3Tのデコード（OCR）精度を達成することが示されています。圧縮率が20倍であっても、OCR精度は約601 TP3Tを維持します。これは、歴史文書の長いコンテキスト圧縮や大規模モデルにおけるメモリ減衰メカニズムなどの研究分野において大きな可能性を示しています。関連する研究論文も入手可能です。 DeepSeek-OCR: コンテキスト光学圧縮。

このチュートリアルでは、デフォルトのリソースとして単一の RTX 5090 グラフィックカードを使用しますが、プログラムの起動には、最小で単一の RTX 4090 グラフィックカードも使用できます。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. ウェブページにアクセスしたら、画像をアップロードしたりテキストを解析したりできます。

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

利用手順

3. 出力結果

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{wei2025deepseek,
  title={DeepSeek-OCR: Contexts Optical Compression},
  author={Wei, Haoran and Sun, Yaofeng and Li, Yukun},
  journal={arXiv preprint arXiv:2510.18234},
  year={2025}
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

Notebook の概要

レベル

入門

トピック

コンピュータビジョン大規模言語モデル開発

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このノートブックを実行 Discordで議論

日付

8ヶ月前

タグ

OCR

RTX 5090

論文URL

2510.18234

ライセンス

MIT

GitHub

deepseek-ai/DeepSeek-OCR23.5k

1. チュートリアルの概要

このチュートリアルでは、デフォルトのリソースとして単一の RTX 5090 グラフィックカードを使用しますが、プログラムの起動には、最小で単一の RTX 4090 グラフィックカードも使用できます。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. ウェブページにアクセスしたら、画像をアップロードしたりテキストを解析したりできます。

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

利用手順

3. 出力結果

4. 議論

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{wei2025deepseek,
  title={DeepSeek-OCR: Contexts Optical Compression},
  author={Wei, Haoran and Sun, Yaofeng and Li, Yukun},
  journal={arXiv preprint arXiv:2510.18234},
  year={2025}
}

Notebook の概要

レベル

入門

トピック

コンピュータビジョン大規模言語モデル開発

DeepSeek-OCR 2 ビジュアル因果フロー

5ヶ月前

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

6ヶ月前

Nanonets-OCR2-3B: 複雑な文書内の視覚要素をより正確に解釈

8ヶ月前

OCRFlux-3B: インテリジェントテキスト認識ツールキット

8ヶ月前

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

1年前

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

2年前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

DeepSeek-OCR: 従来の文字認識に代わる「視覚的圧縮」

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

4. 議論

引用情報

Notebook の概要

AIでAIを構築

HyperAI Newsletters

Command Palette

DeepSeek-OCR: 従来の文字認識に代わる「視覚的圧縮」

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

4. 議論

引用情報

Notebook の概要

関連ノートブック

DeepSeek-OCR 2 ビジュアル因果フロー

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Nanonets-OCR2-3B: 複雑な文書内の視覚要素をより正確に解釈

OCRFlux-3B: インテリジェントテキスト認識ツールキット

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

AIでAIを構築

HyperAI Newsletters

Command Palette

DeepSeek-OCR: 従来の文字認識に代わる「視覚的圧縮」

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

4. 議論

引用情報

Notebook の概要

関連ノートブック

DeepSeek-OCR 2 ビジュアル因果フロー

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Nanonets-OCR2-3B: 複雑な文書内の視覚要素をより正確に解釈

OCRFlux-3B: インテリジェントテキスト認識ツールキット

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

AIでAIを構築

HyperAI Newsletters

関連ノートブック

DeepSeek-OCR 2 ビジュアル因果フロー

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Nanonets-OCR2-3B: 複雑な文書内の視覚要素をより正確に解釈

OCRFlux-3B: インテリジェントテキスト認識ツールキット

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

関連ノートブック

DeepSeek-OCR 2 ビジュアル因果フロー

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Nanonets-OCR2-3B: 複雑な文書内の視覚要素をより正確に解釈

OCRFlux-3B: インテリジェントテキスト認識ツールキット

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル