HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 12 jours

MonkeyOCR : Analyse de documents par un paradigme à triplet reconnaissance de structure-relation

Adam Tauman Kalai Yael Tauman Kalai Or Zamir

MonkeyOCR : Analyse de documents par un paradigme à triplet reconnaissance de structure-relation

Résumé

Nous présentons MonkeyOCR, un modèle vision-langage dédié à l’analyse de documents, qui repousse les limites de l’état de l’art grâce à un paradigme original basé sur un triplet Structure-Recognition-Relation (SRR). Cette architecture simplifie considérablement ce qui serait autrement une chaîne de traitement complexe multi-outils (comme dans l’approche modulaire de MinerU), tout en évitant les inefficacités liées au traitement de pages entières par des modèles end-to-end massifs (par exemple, les grands LLM multimodaux comme Qwen-VL). Dans le cadre du SRR, l’analyse de documents est abstraite en trois questions fondamentales : « Où se trouve-t-il ? » (structure), « Qu’est-ce que c’est ? » (reconnaissance) et « Comment est-il organisé ? » (relation), correspondant respectivement à l’analyse du layout, à l’identification du contenu et à l’ordonnancement logique. Cette décomposition ciblée permet un équilibre optimal entre précision et rapidité : elle permet un traitement efficace et évolutif sans compromettre la précision. Pour entraîner et évaluer cette approche, nous introduisons MonkeyDoc, le jeu de données le plus complet à ce jour pour l’analyse de documents, comprenant 3,9 millions d’instances couvrant plus de dix types de documents en chinois et en anglais. Les expérimentations montrent que MonkeyOCR dépasse MinerU en moyenne de 5,1 %, avec des améliorations particulièrement marquées sur des contenus complexes tels que les formules (+15,0 %) et les tableaux (+8,6 %). De façon remarquable, notre modèle de 3 milliards de paramètres surpasse des modèles bien plus grands et hautement performants, notamment Qwen2.5-VL (72 milliards) et Gemini 2.5 Pro, atteignant ainsi un niveau d’excellence sur les tâches d’analyse de documents en anglais. En outre, MonkeyOCR traite les documents multi-pages de manière significativement plus rapide (0,84 page/seconde contre 0,65 pour MinerU et 0,12 pour Qwen2.5-VL-7B). Le modèle de 3 milliards de paramètres peut être déployé efficacement pour l’inférence sur une seule carte NVIDIA 3090.

Dépôts de code

yuliang-liu/monkeyocr
Officiel
paddle
Mentionné dans GitHub

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MonkeyOCR : Analyse de documents par un paradigme à triplet reconnaissance de structure-relation | Articles de recherche | HyperAI