Command Palette
Search for a command to run...
MinerU2.5 : un modèle vision-langage déconnecté pour une analyse efficace de documents à haute résolution

Résumé
Nous présentons MinerU2.5, un modèle vision-langage pour la reconnaissance de documents doté de 1,2 milliard de paramètres, qui atteint une précision de reconnaissance de pointe tout en conservant une efficacité computationnelle exceptionnelle. Notre approche repose sur une stratégie de traitement en deux étapes, de grossier à fin, qui découple l’analyse globale de la mise en page de la reconnaissance locale du contenu. Dans la première étape, le modèle effectue une analyse efficace de la mise en page sur des images sous-échantillonnées afin d’identifier les éléments structuraux, évitant ainsi la charge computationnelle associée au traitement d’entrées à haute résolution. Dans la deuxième étape, guidé par la mise en page globale, il réalise une reconnaissance ciblée du contenu sur des régions à résolution native extraites de l’image d’origine, préservant ainsi les détails fins dans les textes denses, les formules complexes et les tableaux. Pour soutenir cette stratégie, nous avons développé un moteur de données complet capable de générer des corpus d’apprentissage variés et de grande ampleur, adaptés à la pré-formation et au fine-tuning. En fin de compte, MinerU2.5 démontre une capacité remarquable à traiter les documents, atteignant des performances de pointe sur plusieurs benchmarks, dépassant à la fois les modèles généraux et spécialisés dans diverses tâches de reconnaissance, tout en maintenant une charge computationnelle nettement réduite.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.