HyperAI

MonkeyOCR : Analyse De Documents Basée Sur Le Triple Paradigme Structure-reconnaissance-relation

1. Introduction au tutoriel

Construire

MonkeyOCR est un modèle d'analyse de documents open source lancé par l'Université des Sciences et Technologies de Huazhong et Kingsoft Office le 5 juin 2025. Ce modèle permet une conversion efficace du contenu non structuré des documents en informations structurées. Grâce à une analyse précise de la mise en page, à la reconnaissance de contenu et au tri logique, la précision et l'efficacité de l'analyse des documents sont considérablement améliorées. Comparé aux méthodes traditionnelles, MonkeyOCR est performant pour le traitement de documents complexes (tels que ceux contenant des formules et des tableaux), avec une amélioration moyenne de 5,11 TP3T, et des améliorations de 15,01 TP3T et 8,61 TP3T pour l'analyse des formules et des tableaux, respectivement. Le modèle est performant pour le traitement de documents multipages, atteignant 0,84 page par seconde, dépassant largement les outils similaires. MonkeyOCR prend en charge divers types de documents, notamment les articles universitaires, les manuels scolaires, les journaux, etc., et est multilingue, offrant un support performant pour la numérisation et le traitement automatisé des documents. Les résultats des articles pertinents sont :MonkeyOCR : analyse de documents avec un paradigme triplet structure-reconnaissance-relation".

Caractéristiques principales :

  • Analyse et structuration de documents : convertissez le contenu non structuré (y compris le texte, les tableaux, les formules, les images, etc.) dans des documents de différents formats (tels que PDF, images, etc.) en informations structurées lisibles par machine.
  • Prise en charge multilingue : prend en charge plusieurs langues, dont le chinois et l'anglais.
  • Gérez efficacement les documents complexes : il fonctionne bien lors du traitement de documents complexes (tels que ceux contenant des formules, des tableaux, des mises en page à plusieurs colonnes, etc.).
  • Traitement rapide de documents multipages : traitez efficacement les documents multipages avec une vitesse de traitement de 0,84 page par seconde, nettement meilleure que d'autres outils (tels que MinerU 0,65 page par seconde Qwen2.5-VL-7B 0,12 page par seconde).
  • Déploiement et extension flexibles : prend en charge un déploiement efficace sur un seul GPU NVIDIA 3090 pour répondre aux besoins de différentes échelles.

Principe technique :

  • Paradigme du triplet Structure-Reconnaissance-Relation (SRR) : un détecteur de mise en page basé sur YOLO identifie l'emplacement et la catégorie des éléments clés d'un document (blocs de texte, tableaux, formules, images, etc.). La reconnaissance de contenu est effectuée sur chaque région détectée, et la reconnaissance de bout en bout est réalisée à l'aide d'un grand modèle multimorphique (LMM) pour garantir une grande précision. Grâce à un mécanisme de prédiction de l'ordre de lecture au niveau des blocs, la relation logique entre les éléments détectés est déterminée afin de reconstruire la structure sémantique du document.
  • Ensemble de données MonkeyDoc : MonkeyDoc est l'ensemble de données d'analyse de documents le plus complet à ce jour, contenant 3,9 millions d'instances, couvrant plus de dix types de documents en chinois et en anglais. Cet ensemble de données repose sur un pipeline en plusieurs étapes, intégrant une annotation manuelle rigoureuse, une synthèse programmatique et une annotation automatique pilotée par modèle. Il permet d'entraîner et d'évaluer les modèles MonkeyOCR, garantissant ainsi de solides capacités de généralisation dans des scénarios documentaires divers et complexes.
  • Optimisation et déploiement du modèle : L'optimiseur AdamW et la planification du taux d'apprentissage cosinus sont utilisés en combinaison avec des jeux de données à grande échelle pour l'entraînement, afin de garantir un équilibre entre précision et efficacité du modèle. Basé sur l'outil LMDeplov, MonkeyOCR peut fonctionner efficacement sur un seul GPU NVIDIA 3090, permettant un raisonnement rapide et un déploiement à grande échelle.

Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090.

2. Affichage des effets

Exemple de document de formule

7jVLgB.jpg

Exemple de document de tableau

7jcOaa.png

Exemple de journal

7jcP5V.png

Exemple de rapport financier

7jc10I.png
7jcRCL.png

3. Étapes de l'opération

1. Démarrez le conteneur

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@misc{li2025monkeyocrdocumentparsingstructurerecognitionrelation,
      title={MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm}, 
      author={Zhang Li and Yuliang Liu and Qiang Liu and Zhiyin Ma and Ziyang Zhang and Shuo Zhang and Zidun Guo and Jiarui Zhang and Xinyu Wang and Xiang Bai},
      year={2025},
      eprint={2506.05218},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2506.05218}, 
}