HyperAI

RolmOCR: Szenarioübergreifende Ultraschnelle OCR-Open-Source-Erkennung – Neuer Maßstab

1. Einführung in das Tutorial

RolmOCR ist ein Open-Source-OCR-Tool, das im April 2025 vom Reducto AI-Team entwickelt wurde und auf dem visuellen Sprachmodell Qwen2.5-VL-7B basiert. Es kann Text schnell und mit geringem Speicherverbrauch aus Bildern und PDFs extrahieren und übertrifft damit ähnliche Tools wie olmOCR. RolmOCR ist nicht auf PDF-Metadaten angewiesen, rationalisiert den Prozess und unterstützt eine breite Palette von Dokumenttypen, wie handschriftliche Notizen und wissenschaftliche Arbeiten. Das Reducto-Team möchte die Effizienz der Dokumentendigitalisierung durch Modellaktualisierungen und Optimierung der Trainingsdaten verbessern.

Dieses Tutorial verwendet RolmOCR als Demonstration, das Bild verwendet vllm 0.7.3-2204 und die Rechenressource verwendet RTX 4090.

2. Funktionsliste

  • Schnelle Textextraktion: Extrahieren Sie Text aus Bildern und PDFs mit hoher Verarbeitungsgeschwindigkeit, geeignet für große Dokumentmengen.
  • Unterstützt eine Vielzahl von Dokumenten: Kann handschriftliche Notizen, gedruckte Dokumente und komplexe Tabellen erkennen.
  • Open Source und kostenlos: Der unter der Apache 2.0-Lizenz veröffentlichte Code kann kostenlos heruntergeladen und angepasst werden.
  • Geringer Speicherverbrauch: Es ist ressourceneffizienter als olmOCR und stellt beim Ausführen geringere Anforderungen an den Computer.
  • Keine Metadaten erforderlich: Arbeiten Sie direkt mit dem Originaldokument, ohne auf zusätzliche Informationen aus dem PDF angewiesen zu sein.
  • Verbesserte Erkennung geneigter Dokumente: 15% wird in den Trainingsdaten gedreht, um die Anpassungsfähigkeit an Dokumente mit nicht positiven Winkeln zu verbessern.
  • Basierend auf dem neuesten Modell: Verwendung von Qwen2.5-VL-7B zur Verbesserung der Erkennungsgenauigkeit und -effizienz.

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie etwa 1–2 Minuten und aktualisieren Sie die Seite.

2. Funktionsdemonstration

Zitationsinformationen

Dank an den GitHub-Benutzer boyswu  Für die Erstellung dieses Tutorials lauten die Projektreferenzinformationen wie folgt:

@misc{RolmOCR,
  author = {Reducto AI},
  title = {RolmOCR: A Faster, Lighter Open Source OCR Model},
  year = {2025},
}

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓