HyperAIHyperAI

Command Palette

Search for a command to run...

Console

MinerU2.5-2509-1.2B: ドキュメント解析デモ

1. チュートリアルの概要

GitHubスター

MinerU2.5-2509-1.2Bは、OpenDataLabと上海AIラボによって2025年9月にリリースされた視覚言語モデルです。高精度かつ高効率な文書解析タスク向けに設計されています。これはMinerUシリーズの最新版であり、PDFなどの複雑な形式の文書を構造化された機械可読データ(Markdown、JSONなど)に変換することに重点を置いています。関連論文の結果は「MinerU2.5: 効率的な高解像度文書解析のための分離型視覚言語モデル”。

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

パラメータの説明

  • 数式認識を有効にする:数式認識を有効にするかどうか。有効にすると、システムはドキュメント内の数式を認識し、LaTeX形式に変換します。
  • 表認識を有効にする:表認識機能を有効にするかどうか。有効にすると、システムはドキュメント内の表を認識し、HTML形式に変換します。
  • 言語:文書の言語を指定するために使用します。OCRの精度を向上させることができます。
  • OCR を強制的に有効にする: OCR 機能を強制的に有効にします。

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{niu2025mineru25decoupledvisionlanguagemodel,
      title={MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing}, 
      author={Junbo Niu and Zheng Liu and Zhuangcheng Gu and Bin Wang and Linke Ouyang and Zhiyuan Zhao and Tao Chu and Tianyao He and Fan Wu and Qintong Zhang and Zhenjiang Jin and others},
      year={2025},
      eprint={2509.22186},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.22186}, 
}

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています