1. Introduction au tutoriel

RolmOCR est un outil OCR open source développé par l'équipe Reducto AI en avril 2025, basé sur le modèle de langage visuel Qwen2.5-VL-7B. Il peut extraire du texte à partir d'images et de PDF rapidement et avec une faible utilisation de la mémoire, surpassant des outils similaires tels que olmOCR. RolmOCR ne s'appuie pas sur les métadonnées PDF, ce qui simplifie le processus et prend en charge une large gamme de types de documents, tels que les notes manuscrites et les documents universitaires. L'équipe Reducto vise à améliorer l'efficacité de la numérisation des documents grâce à des mises à jour de modèles et à l'optimisation des données de formation.

Ce tutoriel utilise RolmOCR comme démonstration, l'image utilise vllm 0.7.3-2204 et la ressource informatique utilise RTX 4090.

2. Liste des fonctions

Extraction de texte rapide : extrayez du texte à partir d'images et de PDF avec une vitesse de traitement rapide, adaptée à de grandes quantités de documents.

Prend en charge une variété de documents : peut reconnaître les notes manuscrites, les documents imprimés et les tableaux complexes.

Open source et gratuit : Publié sous la licence Apache 2.0, le code peut être librement téléchargé et adapté.

Faible utilisation de la mémoire : il est plus économe en ressources qu'olmOCR et nécessite peu d'ordinateur lors de son exécution.

Aucune métadonnée requise : travaillez directement avec le document original sans vous fier aux informations supplémentaires du PDF.

Reconnaissance améliorée des documents inclinés : le 15% dans les données de formation est tourné pour améliorer l'adaptabilité aux documents avec des angles non positifs.

Basé sur le dernier modèle : Utilisation de Qwen2.5-VL-7B pour améliorer la précision et l'efficacité de la reconnaissance.

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 10 mois

Taille

360.51 MB

Balises

OCR

Licence

Apache 2.0

1. Introduction au tutoriel

Ce tutoriel utilise RolmOCR comme démonstration, l'image utilise vllm 0.7.3-2204 et la ressource informatique utilise RTX 4090.

2. Liste des fonctions

Extraction de texte rapide : extrayez du texte à partir d'images et de PDF avec une vitesse de traitement rapide, adaptée à de grandes quantités de documents.
Prend en charge une variété de documents : peut reconnaître les notes manuscrites, les documents imprimés et les tableaux complexes.
Open source et gratuit : Publié sous la licence Apache 2.0, le code peut être librement téléchargé et adapté.
Faible utilisation de la mémoire : il est plus économe en ressources qu'olmOCR et nécessite peu d'ordinateur lors de son exécution.
Aucune métadonnée requise : travaillez directement avec le document original sans vous fier aux informations supplémentaires du PDF.
Reconnaissance améliorée des documents inclinés : le 15% dans les données de formation est tourné pour améliorer l'adaptabilité aux documents avec des angles non positifs.
Basé sur le dernier modèle : Utilisation de Qwen2.5-VL-7B pour améliorer la précision et l'efficacité de la reconnaissance.

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Démonstration fonctionnelle

Informations sur la citation

Merci à l'utilisateur de GitHub garçonswu Pour la réalisation de ce tutoriel, les informations de référence du projet sont les suivantes :

@misc{RolmOCR,
  author = {Reducto AI},
  title = {RolmOCR: A Faster, Lighter Open Source OCR Model},
  year = {2025},
}

Échange et discussion

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

LightOnOCR-1B-Interface : Un Moteur OCR Haute Vitesse Pour Les Documents Complexes

il y a 2 mois

Flux Causal Visuel DeepSeek-OCR 2

il y a 12 jours

LightOnOCR-2-1B Modèle OCR De Bout En Bout Léger Et Haute Performance

il y a 9 jours

PaddleOCR-VL-1.5 : OCR Local Basé Sur vLLM

il y a un jour

OCRFlux-3B : Boîte À Outils De Reconnaissance De Texte Intelligente

il y a 3 mois

MarkItDown, l'outil De Conversion De Documents Open Source De Microsoft

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

1. Introduction au tutoriel

Ce tutoriel utilise RolmOCR comme démonstration, l'image utilise vllm 0.7.3-2204 et la ressource informatique utilise RTX 4090.

2. Liste des fonctions

Extraction de texte rapide : extrayez du texte à partir d'images et de PDF avec une vitesse de traitement rapide, adaptée à de grandes quantités de documents.

Prend en charge une variété de documents : peut reconnaître les notes manuscrites, les documents imprimés et les tableaux complexes.

Open source et gratuit : Publié sous la licence Apache 2.0, le code peut être librement téléchargé et adapté.

Faible utilisation de la mémoire : il est plus économe en ressources qu'olmOCR et nécessite peu d'ordinateur lors de son exécution.

Aucune métadonnée requise : travaillez directement avec le document original sans vous fier aux informations supplémentaires du PDF.

Reconnaissance améliorée des documents inclinés : le 15% dans les données de formation est tourné pour améliorer l'adaptabilité aux documents avec des angles non positifs.

Basé sur le dernier modèle : Utilisation de Qwen2.5-VL-7B pour améliorer la précision et l'efficacité de la reconnaissance.

Échange et discussion

Command Palette

RolmOCR Reconnaissance OCR Open Source ultra-rapide Multi-scénarios, Nouvelle Référence

1. Introduction au tutoriel

2. Liste des fonctions

3. Étapes de l'opération