MinerU2.5-2509-1.2B : Démonstration d'analyse De Documents
1. Introduction au tutoriel

MinerU2.5-2509-1.2B est un modèle de langage visuel lancé par OpenDataLab et le Shanghai AI Lab en septembre 2025. Conçu pour des tâches d'analyse de documents haute précision et haute efficacité, il constitue la dernière version de la série MinerU et se concentre sur la conversion de documents complexes tels que PDF en données structurées lisibles par machine (comme Markdown, JSON, etc.). Les résultats de l'étude sont :MinerU2.5 : un modèle vision-langage découplé pour une analyse efficace des documents haute résolution".
Ce tutoriel utilise des ressources pour une seule carte RTX 4090.
2. Exemples de projets

3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Description des paramètres
- Activer la reconnaissance des formules : Activer la reconnaissance des formules. Lorsque cette option est activée, le système reconnaît les formules mathématiques du document et les convertit au format LaTeX.
- Activer la reconnaissance des tableaux : Activer la reconnaissance des tableaux. Lorsqu'elle est activée, le système reconnaît le tableau dans le document et le convertit au format HTML.
- Langue : Permet de spécifier la langue du document. Cela peut améliorer la précision de l'OCR.
- forcer l'activation de l'OCR : Forcer l'activation de la fonction OCR.
Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@misc{niu2025mineru25decoupledvisionlanguagemodel,
title={MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing},
author={Junbo Niu and Zheng Liu and Zhuangcheng Gu and Bin Wang and Linke Ouyang and Zhiyuan Zhao and Tao Chu and Tianyao He and Fan Wu and Qintong Zhang and Zhenjiang Jin and others},
year={2025},
eprint={2509.22186},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2509.22186},
}Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.