4ヶ月前

ドキュメント理解

マルチモーダル

自然言語処理

マルチモーダル

コンピュータビジョン

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

概要

我々は、12億パラメータを有するドキュメント解析用の視覚言語モデル「MinerU2.5」を紹介する。本モデルは、優れた認識精度を達成しつつ、極めて高い計算効率を維持している。本研究では、グローバルなレイアウト解析とローカルなコンテンツ認識を分離する、粗いものから細かいものへと段階的に処理する二段階解析戦略を採用している。第一段階では、ダウンサンプリングされた画像を用いて効率的なレイアウト解析を行い、高解像度入力の処理に伴う計算コストを回避している。第二段階では、第一段階で得られたグローバルなレイアウトをもとに、元画像から抽出したネイティブ解像度の領域画像に対して、ターゲット指向のコンテンツ認識を実行することで、密集したテキストや複雑な数式、表などにおける細部情報を保持している。この戦略を支えるために、事前学習および微調整に用いる多様かつ大規模な学習コーパスを生成する包括的なデータエンジンを開発した。最終的に、MinerU2.5は強力なドキュメント解析能力を示し、複数のベンチマークにおいて最先端の性能を達成。汎用モデルおよびドメイン特化型モデルを問わず、さまざまな認識タスクにおいて優れた性能を発揮しつつ、著しく低い計算負荷を維持している。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4ヶ月前

ドキュメント理解

マルチモーダル

自然言語処理

マルチモーダル

コンピュータビジョン

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

概要

我々は、12億パラメータを有するドキュメント解析用の視覚言語モデル「MinerU2.5」を紹介する。本モデルは、優れた認識精度を達成しつつ、極めて高い計算効率を維持している。本研究では、グローバルなレイアウト解析とローカルなコンテンツ認識を分離する、粗いものから細かいものへと段階的に処理する二段階解析戦略を採用している。第一段階では、ダウンサンプリングされた画像を用いて効率的なレイアウト解析を行い、高解像度入力の処理に伴う計算コストを回避している。第二段階では、第一段階で得られたグローバルなレイアウトをもとに、元画像から抽出したネイティブ解像度の領域画像に対して、ターゲット指向のコンテンツ認識を実行することで、密集したテキストや複雑な数式、表などにおける細部情報を保持している。この戦略を支えるために、事前学習および微調整に用いる多様かつ大規模な学習コーパスを生成する包括的なデータエンジンを開発した。最終的に、MinerU2.5は強力なドキュメント解析能力を示し、複数のベンチマークにおいて最先端の性能を達成。汎用モデルおよびドメイン特化型モデルを問わず、さまざまな認識タスクにおいて優れた性能を発揮しつつ、著しく低い計算負荷を維持している。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています