MinerU Outil D'extraction De Données Unique

MinerU Outil d'extraction de données unique

Présentation du modèle
MinerU est un outil qui convertit les PDF en formats lisibles par machine (tels que Markdown, JSON), qui peuvent être facilement extraits dans n'importe quel format. Prend en charge la reconnaissance précise de 176 langues et l'identification précise du type de langue. Il est spécialement conçu pour convertir des documents PDF multimodaux complexes contenant des images, des formules, des tableaux, des notes de bas de page, etc. en un format Markdown clair et facile à analyser. De plus, MinerU prend également en charge l'analyse et l'extraction rapides du contenu formel des pages Web et des livres électroniques contenant des informations d'interférence telles que des publicités, améliorant ainsi efficacement l'efficacité de la préparation du corpus d'IA.
Caractéristiques principales
- Supprimez les en-têtes, les pieds de page, les notes de bas de page, les numéros de page et d'autres éléments pour maintenir la cohérence sémantique
- Texte de sortie dans un ordre lisible par l'homme pour plusieurs colonnes
- Préserver la structure du document original, y compris les titres, les paragraphes, les listes, etc.
- Extraire des images, des titres d'images, des tableaux, des titres de tableaux
- Reconnaître automatiquement les formules dans les documents et les convertir en latex
- Reconnaître automatiquement les tableaux dans les documents et les convertir en latex
- Détecter et activer automatiquement l'OCR pour les PDF brouillés
- Prend en charge les environnements CPU et GPU
- Prise en charge des plates-formes Windows/Linux/Mac
Déployer l'étape d'inférence
Ce tutoriel a déployé le modèle et l'environnement. Vous pouvez utiliser directement le grand modèle pour raisonner le dialogue selon les instructions du didacticiel. Le tutoriel spécifique est le suivant :
1. Configuration du modèle
Une fois les ressources configurées, démarrez le conteneur et cliquez sur le lien à l’adresse API pour accéder à l’interface de démonstration.

2. Ouvrez l'interface
Après un certain temps, vous pouvez voir l’interface du modèle et nous pouvons ensuite utiliser le modèle. Les utilisateurs peuvent télécharger le fichier PDF à extraire (notez qu'il ne doit pas dépasser 5 Mo), cliquer sur le bouton Soumettre et le modèle commencera à être extrait. Un exemple de fichier paper.pdf est également fourni dans l'interface gradio pour que les utilisateurs puissent découvrir le modèle. (Le temps d'extraction de ce fichier est d'environ 110s)
