Command Palette
Search for a command to run...
MinerU2.5-2509-1.2B : Démonstration d'analyse De Documents
1. Introduction au tutoriel

MinerU2.5-2509-1.2B est un modèle de langage visuel lancé par OpenDataLab et le Shanghai AI Lab en septembre 2025. Conçu pour des tâches d'analyse de documents haute précision et haute efficacité, il constitue la dernière version de la série MinerU et se concentre sur la conversion de documents complexes tels que PDF en données structurées lisibles par machine (comme Markdown, JSON, etc.). Les résultats de l'étude sont :MinerU2.5 : un modèle vision-langage découplé pour une analyse efficace des documents haute résolution".
Ce tutoriel utilise des ressources pour une seule carte RTX 4090.
2. Exemples de projets

3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Description des paramètres
- Activer la reconnaissance des formules : Activer la reconnaissance des formules. Lorsque cette option est activée, le système reconnaît les formules mathématiques du document et les convertit au format LaTeX.
- Activer la reconnaissance des tableaux : Activer la reconnaissance des tableaux. Lorsqu'elle est activée, le système reconnaît le tableau dans le document et le convertit au format HTML.
- Langue : Permet de spécifier la langue du document. Cela peut améliorer la précision de l'OCR.
- forcer l'activation de l'OCR : Forcer l'activation de la fonction OCR.
4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@misc{niu2025mineru25decoupledvisionlanguagemodel,
title={MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing},
author={Junbo Niu and Zheng Liu and Zhuangcheng Gu and Bin Wang and Linke Ouyang and Zhiyuan Zhao and Tao Chu and Tianyao He and Fan Wu and Qintong Zhang and Zhenjiang Jin and others},
year={2025},
eprint={2509.22186},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2509.22186},
}Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.