1. Introduction au tutoriel

MinerU 2.5-2509-1.2B est un modèle de langage visuel développé par OpenDataLab et le Shanghai AI Lab en septembre 2025. Conçu spécifiquement pour les tâches d'analyse syntaxique de documents de haute précision et haute efficacité, il s'agit de la dernière version de la série MinerU. Ce modèle se concentre sur la conversion de formats de documents complexes, tels que les PDF, en données structurées lisibles par machine (comme Markdown et JSON). Des articles de recherche associés sont disponibles. MinerU2.5 : un modèle vision-langage découplé pour une analyse efficace des documents haute résolution .

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Description des paramètres

Activer la reconnaissance des formules : Activer la reconnaissance des formules. Lorsque cette option est activée, le système reconnaît les formules mathématiques du document et les convertit au format LaTeX.

Activer la reconnaissance des tableaux : Activer la reconnaissance des tableaux. Lorsqu'elle est activée, le système reconnaît le tableau dans le document et le convertit au format HTML.

Langue : Permet de spécifier la langue du document. Cela peut améliorer la précision de l'OCR.

forcer l'activation de l'OCR : Forcer l'activation de la fonction OCR.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@misc{niu2025mineru25decoupledvisionlanguagemodel, title={MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing}, author={Junbo Niu and Zheng Liu and Zhuangcheng Gu and Bin Wang and Linke Ouyang and Zhiyuan Zhao and Tao Chu and Tianyao He and Fan Wu and Qintong Zhang and Zhenjiang Jin and others}, year={2025}, eprint={2509.22186}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.22186}, }

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 4 mois

Taille

708.79 MB

Balises

OCR

Licence

AGPL-3.0

GitHub

opendatalab/MinerU/

URL du document

2509.22186

1. Introduction au tutoriel

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Description des paramètres

Activer la reconnaissance des formules : Activer la reconnaissance des formules. Lorsque cette option est activée, le système reconnaît les formules mathématiques du document et les convertit au format LaTeX.
Activer la reconnaissance des tableaux : Activer la reconnaissance des tableaux. Lorsqu'elle est activée, le système reconnaît le tableau dans le document et le convertit au format HTML.
Langue : Permet de spécifier la langue du document. Cela peut améliorer la précision de l'OCR.
forcer l'activation de l'OCR : Forcer l'activation de la fonction OCR.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@misc{niu2025mineru25decoupledvisionlanguagemodel,
      title={MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing}, 
      author={Junbo Niu and Zheng Liu and Zhuangcheng Gu and Bin Wang and Linke Ouyang and Zhiyuan Zhao and Tao Chu and Tianyao He and Fan Wu and Qintong Zhang and Zhenjiang Jin and others},
      year={2025},
      eprint={2509.22186},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.22186}, 
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

MonkeyOCR : Analyse De Documents Basée Sur Le Triple Paradigme structure-reconnaissance-relation

il y a 3 mois

OCRFlux-3B : Boîte À Outils De Reconnaissance De Texte Intelligente

il y a 3 mois

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

il y a 2 mois

kyutai-tts-1.6 b-en_fr Génération Audio

il y a un mois

Kiss3DGen : Un Framework De Génération d'actifs 3D Basé Sur Un Modèle De Diffusion d'images

il y a un mois

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 4 mois

Taille

708.79 MB

Balises

OCR

Licence

AGPL-3.0

GitHub

opendatalab/MinerU/

URL du document

2509.22186

1. Introduction au tutoriel

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération