1. チュートリアルの概要

HunyuanOCRプロジェクトは、2025年11月にTencentのHunyuanチームによってリリースされ、関連する論文結果は次のとおりです。 HunyuanOCR技術レポート。

プロジェクト概要：HunyuanOCRは、革新的な10億パラメータのエンドツーエンドOCRモデルです。Hunyuanのネイティブマルチモーダルアーキテクチャを基盤とし、検出、認識、スティッチングといった従来のOCRの煩雑なプロセスを打破し、「単一画像入力、直接出力」という究極の体験を実現します。このモデルは、多言語文書解析、LaTeX数式認識、複雑な表の再構築といったタスクにおいて、最先端（SOTA）レベルの成果を達成しています。

このチュートリアルでは、デモリソースとして単一のRTX 5090 GPUを使用し、OpenBayesプラットフォームのコンピューティングパワーを実証します。Transformersのネイティブ推論とGradoで構築されたビジュアルWebインターフェースを組み合わせ、様々なOCRタスクをワンクリックでテストできます。

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。

2. ウェブページに画像をアップロードして認識します。

「Bad Gateway」と表示される場合は、モデルの読み込み中です。2～3分ほどお待ちいただき、ページを更新してください。

引用情報

@misc{hunyuanvisionteam2025hunyuanocrtechnicalreport, title={HunyuanOCR Technical Report}, author={Hunyuan Vision Team and Pengyuan Lyu and Xingyu Wan and Gengluo Li and Shangpin Peng and Weinong Wang and Liang Wu and Huawen Shen and Yu Zhou and Canhui Tang and Qi Yang and Qiming Peng and Bin Luo and Hower Yang and Xinsong Zhang and Jinnian Zhang and Houwen Peng and Hongming Yang and Senhao Xie and Longsha Zhou and Ge Pei and Binghong Wu and Kan Wu and Jieneng Yang and Bochao Wang and Kai Liu and Jianchen Zhu and Jie Jiang and Linus and Han Hu and Chengquan Zhang}, year={2025}, journal={arXiv preprint arXiv:2511.19575}, url={[https://arxiv.org/abs/2511.19575](https://arxiv.org/abs/2511.19575)}, }

HyperAI

このノートブックを実行 Discordで議論

日付

6ヶ月前

タグ

OCR

RTX 5090

論文URL

2511.19575

GitHub

Tencent-Hunyuan/HunyuanOCR1.7k

1. チュートリアルの概要

HunyuanOCRプロジェクトは、2025年11月にTencentのHunyuanチームによってリリースされ、関連する論文結果は次のとおりです。 HunyuanOCR技術レポート。

このチュートリアルでは、デモリソースとして単一のRTX 5090 GPUを使用し、OpenBayesプラットフォームのコンピューティングパワーを実証します。Transformersのネイティブ推論とGradoで構築されたビジュアルWebインターフェースを組み合わせ、様々なOCRタスクをワンクリックでテストできます。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。

2. ウェブページに画像をアップロードして認識します。

「Bad Gateway」と表示される場合は、モデルの読み込み中です。2～3分ほどお待ちいただき、ページを更新してください。

引用情報

@misc{hunyuanvisionteam2025hunyuanocrtechnicalreport,
      title={HunyuanOCR Technical Report}, 
      author={Hunyuan Vision Team and Pengyuan Lyu and Xingyu Wan and Gengluo Li and Shangpin Peng and Weinong Wang and Liang Wu and Huawen Shen and Yu Zhou and Canhui Tang and Qi Yang and Qiming Peng and Bin Luo and Hower Yang and Xinsong Zhang and Jinnian Zhang and Houwen Peng and Hongming Yang and Senhao Xie and Longsha Zhou and Ge Pei and Binghong Wu and Kan Wu and Jieneng Yang and Bochao Wang and Kai Liu and Jianchen Zhu and Jie Jiang and Linus and Han Hu and Chengquan Zhang},
      year={2025},
      journal={arXiv preprint arXiv:2511.19575},
      url={[https://arxiv.org/abs/2511.19575](https://arxiv.org/abs/2511.19575)}, 
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

Notebook の概要

レベル

入門

トピック

コンピュータビジョン生成AI

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このノートブックを実行 Discordで議論

日付

6ヶ月前

タグ

OCR

RTX 5090

論文URL

2511.19575

GitHub

Tencent-Hunyuan/HunyuanOCR1.7k

1. チュートリアルの概要

HunyuanOCRプロジェクトは、2025年11月にTencentのHunyuanチームによってリリースされ、関連する論文結果は次のとおりです。 HunyuanOCR技術レポート。

このチュートリアルでは、デモリソースとして単一のRTX 5090 GPUを使用し、OpenBayesプラットフォームのコンピューティングパワーを実証します。Transformersのネイティブ推論とGradoで構築されたビジュアルWebインターフェースを組み合わせ、様々なOCRタスクをワンクリックでテストできます。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。

2. ウェブページに画像をアップロードして認識します。

「Bad Gateway」と表示される場合は、モデルの読み込み中です。2～3分ほどお待ちいただき、ページを更新してください。

引用情報

@misc{hunyuanvisionteam2025hunyuanocrtechnicalreport,
      title={HunyuanOCR Technical Report}, 
      author={Hunyuan Vision Team and Pengyuan Lyu and Xingyu Wan and Gengluo Li and Shangpin Peng and Weinong Wang and Liang Wu and Huawen Shen and Yu Zhou and Canhui Tang and Qi Yang and Qiming Peng and Bin Luo and Hower Yang and Xinsong Zhang and Jinnian Zhang and Houwen Peng and Hongming Yang and Senhao Xie and Longsha Zhou and Ge Pei and Binghong Wu and Kan Wu and Jieneng Yang and Bochao Wang and Kai Liu and Jianchen Zhu and Jie Jiang and Linus and Han Hu and Chengquan Zhang},
      year={2025},
      journal={arXiv preprint arXiv:2511.19575},
      url={[https://arxiv.org/abs/2511.19575](https://arxiv.org/abs/2511.19575)}, 
}

Notebook の概要

レベル

入門

トピック

コンピュータビジョン生成AI

Qianfan-OCR：エンドツーエンドのインテリジェント文書モデル

3ヶ月前

POINTS-Reader: エンドツーエンドの蒸留フリーアーキテクチャを備えた軽量のドキュメントビジョン言語モデル

9ヶ月前

OCRFlux-3B: インテリジェントテキスト認識ツールキット

8ヶ月前

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

8ヶ月前

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

1年前

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

2年前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。

2. ウェブページに画像をアップロードして認識します。

引用情報

Notebook の概要

AIでAIを構築

HyperAI Newsletters

Command Palette

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。

2. ウェブページに画像をアップロードして認識します。

引用情報

Notebook の概要

関連ノートブック

Qianfan-OCR：エンドツーエンドのインテリジェント文書モデル

POINTS-Reader: エンドツーエンドの蒸留フリーアーキテクチャを備えた軽量のドキュメントビジョン言語モデル

OCRFlux-3B: インテリジェントテキスト認識ツールキット

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

AIでAIを構築

HyperAI Newsletters

Command Palette

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。

2. ウェブページに画像をアップロードして認識します。

引用情報

Notebook の概要

関連ノートブック

Qianfan-OCR：エンドツーエンドのインテリジェント文書モデル

POINTS-Reader: エンドツーエンドの蒸留フリーアーキテクチャを備えた軽量のドキュメントビジョン言語モデル

OCRFlux-3B: インテリジェントテキスト認識ツールキット

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

AIでAIを構築

HyperAI Newsletters

関連ノートブック

Qianfan-OCR：エンドツーエンドのインテリジェント文書モデル

POINTS-Reader: エンドツーエンドの蒸留フリーアーキテクチャを備えた軽量のドキュメントビジョン言語モデル

OCRFlux-3B: インテリジェントテキスト認識ツールキット

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル

関連ノートブック

Qianfan-OCR：エンドツーエンドのインテリジェント文書モデル

POINTS-Reader: エンドツーエンドの蒸留フリーアーキテクチャを備えた軽量のドキュメントビジョン言語モデル

OCRFlux-3B: インテリジェントテキスト認識ツールキット

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

RolmOCR クロスシナリオ超高速OCRオープンソース認識の新しいベンチマーク

GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル