HyperAIHyperAI

Command Palette

Search for a command to run...

MinerU2.5-2509-1.2B : Démonstration d'analyse De Documents

Date

il y a 4 mois

Size

708.79 MB

Tags

License

AGPL-3.0

Paper URL

2509.22186

1. Introduction au tutoriel

Étoiles GitHub

MinerU 2.5-2509-1.2B est un modèle de langage visuel développé par OpenDataLab et le Shanghai AI Lab en septembre 2025. Conçu spécifiquement pour les tâches d'analyse syntaxique de documents de haute précision et haute efficacité, il s'agit de la dernière version de la série MinerU. Ce modèle se concentre sur la conversion de formats de documents complexes, tels que les PDF, en données structurées lisibles par machine (comme Markdown et JSON). Des articles de recherche associés sont disponibles. MinerU2.5 : un modèle vision-langage découplé pour une analyse efficace des documents haute résolution .

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Description des paramètres

  • Activer la reconnaissance des formules : Activer la reconnaissance des formules. Lorsque cette option est activée, le système reconnaît les formules mathématiques du document et les convertit au format LaTeX.
  • Activer la reconnaissance des tableaux : Activer la reconnaissance des tableaux. Lorsqu'elle est activée, le système reconnaît le tableau dans le document et le convertit au format HTML.
  • Langue : Permet de spécifier la langue du document. Cela peut améliorer la précision de l'OCR.
  • forcer l'activation de l'OCR : Forcer l'activation de la fonction OCR.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@misc{niu2025mineru25decoupledvisionlanguagemodel,
      title={MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing}, 
      author={Junbo Niu and Zheng Liu and Zhuangcheng Gu and Bin Wang and Linke Ouyang and Zhiyuan Zhao and Tao Chu and Tianyao He and Fan Wu and Qintong Zhang and Zhenjiang Jin and others},
      year={2025},
      eprint={2509.22186},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.22186}, 
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp