HyperAI

GOT-OCR-2.0 Le Premier Modèle OCR Universel De Bout En Bout Au Monde

Présentation du projet

GOT-OCR-2.0  Il s'agit d'un modèle unifié de bout en bout basé sur la théorie générale de l'OCR, axé sur l'amélioration de la précision et de l'efficacité de la reconnaissance optique de caractères (OCR). Le projet a été publié conjointement par les équipes de recherche de StepFun, Megvii Technology, de l'Université de l'Académie chinoise des sciences et de l'Université Tsinghua. Les résultats de l'article connexe sont «Théorie générale de l'OCR : vers l'OCR-2.0 via un modèle unifié de bout en bout", qui convient à divers scénarios d'application tels que la reconnaissance de texte et de documents. Il adopte une architecture intégrée capable de gérer efficacement la diversité et la complexité des textes. GOT-OCR 2.0 prend non seulement en charge la reconnaissance de texte, mais peut également traiter des documents multipages, apportant ainsi plus de flexibilité au domaine de l'OCR.

GOT-OCR-2.0  Les fonctionnalités incluent :

  • Forte polyvalence : basé sur la théorie générale de l'OCR, il peut traiter du texte de scène et des structures de documents complexes telles que des tableaux et des formules.
  • Modèle de bout en bout : l'architecture unifiée de bout en bout simplifie l'ensemble du processus OCR, en intégrant l'entrée d'image à la sortie de texte.
  • Performances efficaces : la technologie Flash-Attention intégrée améliore la vitesse et les performances de reconnaissance.
  • Prise en charge multiplateforme : prend en charge l'accélération CUDA et est intégré à la plate-forme GOT-OCR2.0 pour charger des modèles pré-entraînés.
  • Largement utilisé : convient à une large gamme de scénarios d'application tels que les documents multipages et les textes de scène.

Exemples d'effets


Étapes de course

1. Cliquez sur « Cloner » dans le coin supérieur droit du projet, puis cliquez sur « Suivant » pour terminer : Informations de base > Sélectionner la puissance de calcul > Réviser. Enfin, cliquez sur « Continuer » pour ouvrir ce projet dans le conteneur personnel.

2. Une fois l'allocation des ressources terminée, l'arrière-plan initialisera automatiquement le modèle (), puis vous pourrez utiliser directement l'adresse API fournie par la plateforme pour accéder à la page d'opération (l'authentification par nom réel doit avoir été effectuée, et il n'est pas nécessaire d'ouvrir l'espace de travail pour cette étape)

3. Téléchargez l'image cible