HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

MinerU2.5 : un modèle vision-langage déconnecté pour une analyse efficace de documents à haute résolution

MinerU2.5 : un modèle vision-langage déconnecté pour une analyse efficace de documents à haute résolution

Résumé

Nous présentons MinerU2.5, un modèle vision-langage pour la reconnaissance de documents doté de 1,2 milliard de paramètres, qui atteint une précision de reconnaissance de pointe tout en conservant une efficacité computationnelle exceptionnelle. Notre approche repose sur une stratégie de traitement en deux étapes, de grossier à fin, qui découple l’analyse globale de la mise en page de la reconnaissance locale du contenu. Dans la première étape, le modèle effectue une analyse efficace de la mise en page sur des images sous-échantillonnées afin d’identifier les éléments structuraux, évitant ainsi la charge computationnelle associée au traitement d’entrées à haute résolution. Dans la deuxième étape, guidé par la mise en page globale, il réalise une reconnaissance ciblée du contenu sur des régions à résolution native extraites de l’image d’origine, préservant ainsi les détails fins dans les textes denses, les formules complexes et les tableaux. Pour soutenir cette stratégie, nous avons développé un moteur de données complet capable de générer des corpus d’apprentissage variés et de grande ampleur, adaptés à la pré-formation et au fine-tuning. En fin de compte, MinerU2.5 démontre une capacité remarquable à traiter les documents, atteignant des performances de pointe sur plusieurs benchmarks, dépassant à la fois les modèles généraux et spécialisés dans diverses tâches de reconnaissance, tout en maintenant une charge computationnelle nettement réduite.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MinerU2.5 : un modèle vision-langage déconnecté pour une analyse efficace de documents à haute résolution | Articles de recherche | HyperAI