HyperAIHyperAI

Un Résumé De Six Principaux Modèles OCR, Open Source Par Google, IBM, Tencent, Xiaohongshu Et l'Université Tsinghua, Avec Des Architectures Légères Qui Améliorent La Précision Et l'efficacité De La reconnaissance.

特色图像

Parmi les nombreuses applications de l’intelligence artificielle, l’OCR (reconnaissance optique de caractères) est sans aucun doute l’une des technologies les plus matures et les plus pratiques.L’objectif principal de l’OCR est de convertir automatiquement les caractères des images, des documents numérisés, des scènes de rue, des factures et même du texte manuscrit en texte numérique modifiable et consultable.Les premiers systèmes OCR s'appuyaient fortement sur des règles et des modèles, avaient des fonctionnalités limitées et ne pouvaient souvent reconnaître que les caractères imprimés. Cependant, avec l'introduction de l'apprentissage profond, notamment des réseaux de neurones convolutifs (CNN) et des méthodes de modélisation séquentielle, la précision de la reconnaissance et le champ d'application de l'OCR ont connu un bond qualitatif.

Aujourd'hui, l'OCR est largement utilisé dans divers scénarios tels que le traitement automatisé des factures financières, l'examen des documents d'identité, la reconnaissance des plaques d'immatriculation, la numérisation des livres électroniques, la traduction intelligente et la saisie de documents médicaux.La recherche et l’industrie ont également produit une série de modèles et de cadres représentatifs.Par exemple, le CRNN (réseau neuronal convolutionnel récurrent) a posé les bases du paradigme classique de la reconnaissance de texte de bout en bout, et des structures telles que TPS-ResNet-BiLSTM-Attention ont favorisé le développement de la reconnaissance de texte dans des scènes complexes. Du modèle technologique révolutionnaire InkSight lancé par Google aux modèles légers POINTS-Reader et Granite-docling récemment lancés,La technologie OCR a montré un grand potentiel dans les tâches de reconnaissance légères, multilingues et multimodales.

La section « Tutoriels » du site officiel d'HyperAI propose actuellement plusieurs tutoriels open source sur les modèles OCR. Pour découvrir les puissantes capacités de la technologie OCR pour l'extraction efficace d'images et de textes, la reconnaissance de scènes et la correspondance multilingue et multiformat, consultez la section « Tutoriels » d'HyperAI et découvrez le tutoriel en un clic !

1. POINTS-Lecteur:Modèle léger sans distillation et de bout en bout

* Fonctionnement en ligne :https://go.hyper.ai/amhh4

Lancé conjointement par Tencent, l'Université Jiao Tong de Shanghai et l'Université Tsinghua, ce modèle vision-langage léger (VLM) est spécialement conçu pour la conversion d'images en texte. Grâce à un cadre auto-évolutif en deux étapes, il permet une reconnaissance complète et précise des documents chinois et anglais complexes (tableaux, formules et mises en page multicolonnes), tout en conservant une structure minimaliste.

2. Granite-docling-258M : un modèle léger de traitement de documents multimodal

* Fonctionnement en ligne :https://go.hyper.ai/BBXlC

* Tutoriel étape par étape :Redéfinir la prochaine génération d'OCR : le nouveau Granite-docling-258M open source d'IBM permet une compréhension unifiée de bout en bout de la « structure + contenu ».

Lancé par IBM en septembre 2025, ce modèle de langage visuel léger est conçu pour une conversion efficace des documents. Avec seulement 258 millions de paramètres, il offre des performances et un rapport coût-efficacité exceptionnels, prenant en charge plusieurs langues (dont l'arabe, le chinois et le japonais). Il convertit les documents dans un format lisible par machine tout en préservant les mises en page, les tableaux, les formules et autres éléments. Le format DocTags utilisé décrit précisément la structure du document, évitant ainsi toute perte d'informations.

3. dots.ocr : un modèle d'analyse de documents multilingues

* Fonctionnement en ligne :https://go.hyper.ai/o0Bm0

* Tutoriel étape par étape :Tutoriel en ligne | Brisant la dépendance aux documents structurés, dots.ocr atteint des performances OCR de pointe dans des centaines de langues sur la base de paramètres 1,7B.

Ce modèle, publié par le laboratoire hi de Xiaohongshu en août 2025, est un modèle d'analyse de mise en page de documents multilingues. Basé sur un modèle VLM de 1,7 milliard de paramètres, il intègre la détection de mise en page et la reconnaissance de contenu, garantissant ainsi un ordre de lecture optimal. Malgré sa petite taille, il offre des performances de pointe, obtenant d'excellents résultats sur des benchmarks tels qu'OmniDocBench. Sa reconnaissance de formules rivalise avec celle de Doubao-1.5 et Gemini2.5-Pro, et présente des avantages significatifs pour l'analyse des langues minoritaires. Ce modèle bénéficie d'une architecture simple et efficace, permettant de changer de tâche en modifiant simplement le mot clé. Il en résulte une vitesse d'inférence élevée, ce qui le rend adapté à une variété de scénarios d'analyse de documents.

4. MonkeyOCR : analyse de documents basée sur la relation structure-reconnaissance

* Fonctionnement en ligne :https://go.hyper.ai/2SDMC

* Tutoriel étape par étape :Avec 2,6 000 étoiles, MonkeyOCR-3B surpasse le modèle 72B dans la tâche d'analyse de documents anglais et atteint les performances SOTA

Ce modèle d'analyse de documents, open source conjointement par l'Université des sciences et technologies de Huazhong et Kingsoft Office, convertit efficacement le contenu non structuré en informations structurées. Grâce à une analyse précise de la mise en page, à la reconnaissance du contenu et à l'ordonnancement logique, il améliore considérablement la précision et l'efficacité de l'analyse. Les performances sont améliorées en moyenne de 5,11 TP3T pour les documents complexes, de 15,01 TP3T pour l'analyse des formules et de 8,61 TP3T pour l'analyse des tableaux. Sa vitesse de traitement multipage atteint 0,84 page par seconde, dépassant largement celle d'outils similaires. Prenant en charge un large éventail de types de documents et de langues, il est adapté à des scénarios tels que les thèses, les manuels scolaires et les journaux, offrant un support performant pour la numérisation et l'automatisation des documents.

5. GOT-OCR-2.0 : le premier modèle OCR universel de bout en bout au monde

* Fonctionnement en ligne :https://go.hyper.ai/NGNZi

Développé conjointement par StepFun, Megvii Technology, l'Université de l'Académie chinoise des sciences et l'Université Tsinghua, ce modèle unifié de bout en bout, basé sur la théorie universelle de l'OCR, utilise une architecture intégrée pour améliorer significativement la précision et l'efficacité de l'OCR. Flexible et adaptable, ce modèle prend en charge la reconnaissance de texte scénique et traite efficacement les documents multipages, ce qui le rend adapté à une variété de scénarios d'application complexes.

6. Démo InkSight : Numérisation de texte manuscrit

* Fonctionnement en ligne :https://go.hyper.ai/LofxZ

* Tutoriel étape par étape :Au-delà de l’OCR traditionnel ! Déploiement en un clic de la dernière réalisation de Google, InkSight : reconnaissance précise du texte manuscrit, sans pression sur le chinois et l'anglais

Cette technologie d'IA révolutionnaire, lancée par Google Research en 2024, imite le processus de lecture et d'apprentissage humain en réécrivant et en apprenant continuellement le texte manuscrit, permettant ainsi d'en comprendre l'apparence et le sens. Les tracés de texte générés par InkSight sont lus avec une précision allant jusqu'à 871 TP3T. InkSight affiche une précision de reconnaissance encore plus élevée lorsqu'il s'agit de texte manuscrit sur fond complexe, dans des conditions floues ou en faible luminosité.