HyperAI

RolmOCR Reconnaissance OCR Open Source Ultra-rapide Multi-scénarios, Nouvelle Référence

1. Introduction au tutoriel

RolmOCR est un outil OCR open source développé par l'équipe Reducto AI en avril 2025, basé sur le modèle de langage visuel Qwen2.5-VL-7B. Il peut extraire du texte à partir d'images et de PDF rapidement et avec une faible utilisation de la mémoire, surpassant des outils similaires tels que olmOCR. RolmOCR ne s'appuie pas sur les métadonnées PDF, ce qui simplifie le processus et prend en charge une large gamme de types de documents, tels que les notes manuscrites et les documents universitaires. L'équipe Reducto vise à améliorer l'efficacité de la numérisation des documents grâce à des mises à jour de modèles et à l'optimisation des données de formation.

Ce tutoriel utilise RolmOCR comme démonstration, l'image utilise vllm 0.7.3-2204 et la ressource informatique utilise RTX 4090.

2. Liste des fonctions

  • Extraction de texte rapide : extrayez du texte à partir d'images et de PDF avec une vitesse de traitement rapide, adaptée à de grandes quantités de documents.
  • Prend en charge une variété de documents : peut reconnaître les notes manuscrites, les documents imprimés et les tableaux complexes.
  • Open source et gratuit : Publié sous la licence Apache 2.0, le code peut être librement téléchargé et adapté.
  • Faible utilisation de la mémoire : il est plus économe en ressources qu'olmOCR et nécessite peu d'ordinateur lors de son exécution.
  • Aucune métadonnée requise : travaillez directement avec le document original sans vous fier aux informations supplémentaires du PDF.
  • Reconnaissance améliorée des documents inclinés : le 15% dans les données de formation est tourné pour améliorer l'adaptabilité aux documents avec des angles non positifs.
  • Basé sur le dernier modèle : Utilisation de Qwen2.5-VL-7B pour améliorer la précision et l'efficacité de la reconnaissance.

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Démonstration fonctionnelle

Informations sur la citation

Merci à l'utilisateur de GitHub garçonswu  Pour la réalisation de ce tutoriel, les informations de référence du projet sont les suivantes :

@misc{RolmOCR,
  author = {Reducto AI},
  title = {RolmOCR: A Faster, Lighter Open Source OCR Model},
  year = {2025},
}

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓