il y a 4 mois

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

Résumé

Nous présentons MinerU2.5, un modèle vision-langage pour la reconnaissance de documents doté de 1,2 milliard de paramètres, qui atteint une précision de reconnaissance de pointe tout en conservant une efficacité computationnelle exceptionnelle. Notre approche repose sur une stratégie de traitement en deux étapes, de grossier à fin, qui découple l’analyse globale de la mise en page de la reconnaissance locale du contenu. Dans la première étape, le modèle effectue une analyse efficace de la mise en page sur des images sous-échantillonnées afin d’identifier les éléments structuraux, évitant ainsi la charge computationnelle associée au traitement d’entrées à haute résolution. Dans la deuxième étape, guidé par la mise en page globale, il réalise une reconnaissance ciblée du contenu sur des régions à résolution native extraites de l’image d’origine, préservant ainsi les détails fins dans les textes denses, les formules complexes et les tableaux. Pour soutenir cette stratégie, nous avons développé un moteur de données complet capable de générer des corpus d’apprentissage variés et de grande ampleur, adaptés à la pré-formation et au fine-tuning. En fin de compte, MinerU2.5 démontre une capacité remarquable à traiter les documents, atteignant des performances de pointe sur plusieurs benchmarks, dépassant à la fois les modèles généraux et spécialisés dans diverses tâches de reconnaissance, tout en maintenant une charge computationnelle nettement réduite.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Compréhension De Document

Multimodal

OCR

Traitement Du Langage Naturel

Multimodal

Vision Par Ordinateur

Tâche

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Compréhension De Document

Multimodal

OCR

Traitement Du Langage Naturel

Multimodal

Vision Par Ordinateur

Tâche

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

MinerU2.5 : un modèle vision-langage déconnecté pour une analyse efficace de documents à haute résolution | Articles | HyperAI

Command Palette

MinerU2.5 : un modèle vision-langage déconnecté pour une analyse efficace de documents à haute résolution

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang51 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MinerU2.5 : un modèle vision-langage déconnecté pour une analyse efficace de documents à haute résolution

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang51 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MinerU2.5 : un modèle vision-langage déconnecté pour une analyse efficace de documents à haute résolution

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang51 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang