HyperAIHyperAI

Command Palette

Search for a command to run...

PaddleOCR-VL: マルチモーダルドキュメント解析

日付

3ヶ月前

サイズ

21.34 MB

タグ

ライセンス

Apache 2.0

論文URL

2510.14528

1. チュートリアルの概要

レポ

PaddleOCR-VLは、文書解析タスク向けに特別に設計された最先端(SOTA)かつリソース効率の高いモデルです。その中核コンポーネントは、NaViTスタイルの動的解像度のビジュアルエンコーダーとERNIE-4.5-0.3B言語モデルを統合し、正確な要素認識を可能にするコンパクトで強力なビジュアル言語モデル(VLM)であるPaddleOCR-VL-0.9Bです。この革新的なモデルは、109の言語を効率的にサポートし、テキスト、表、数式、グラフなどの複雑な要素の認識に優れており、リソース消費を極めて低く抑えています。広く使用されている公開ベンチマークと社内ベンチマークによる包括的な評価を通じて、PaddleOCR-VLはページレベルの文書解析と要素レベルの認識タスクの両方でSOTAパフォーマンスを達成しています。このモデルは既存のソリューションを大幅に上回り、トップレベルのビジュアル言語モデルに対して強力な競争力を示し、高速な推論速度を提供します。これらの利点により、実世界での展開に非常に適しています。関連する研究論文もご覧いただけます。 PaddleOCR-VL: 0.9B の超コンパクトな視覚言語モデルによる多言語ドキュメント解析の強化

このチュートリアルでは、コンピューティング リソースとして単一の RTX 5090 グラフィック カードを使用します。

2. 効果例

3. 操作手順

1. コンテナを起動します

2. Web ページに入ると、モデルと会話を開始できます。

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

利用手順 

 

引用情報

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています