HyperAIHyperAI

Command Palette

Search for a command to run...

Chandra: Hochpräzise Dokumenten-OCR

Datum

vor 2 Monaten

Größe

5.19 MB

Lizenz

Apache 2.0

1. Einführung in das Tutorial

Bauen
Modelllizenz: OpenRAIL

Chandra ist ein hochpräzises Dokumenten-OCR-System (Optical Character Recognition), das im Oktober 2025 vom Datalab-to-Team entwickelt wurde und sich auf die Erkennung von Dokumentenlayouts und die Textextraktion konzentriert. Chandra kann PDF- und Bilddateien direkt verarbeiten und strukturierten Text, Markdown und HTML-Ausgaben generieren. Zusätzlich werden visuelle Layoutdiagramme zur einfachen Überprüfung der OCR-Ergebnisse bereitgestellt.

Kernfunktionen:

  • Hochpräzise OCROptimiert für Dokument-, Tabellen- und mehrspaltige Layouts, unterstützt komplexe Seitenlayouts.
  • LayoutbewusstseinErzeugt visuelle Layoutdiagramme und kennzeichnet Textblöcke, Tabellen und Bildbereiche.
  • Ausgabe in mehreren FormatenUnterstützt das Herunterladen von Markdown, HTML und Klartext.
  • Einfache BereitstellungBasierend auf der Streamlit-Oberfläche ermöglicht es eine schnelle Interaktion im Browser.
  • Leichtes ModellSie können das Modell direkt mit Transformers laden, ohne eine Abhängigkeit von vLLM hinzufügen zu müssen.

Dieses Tutorial verwendet Streamlit, um das Chandra OCR-Kernmodell mit "RTX_5090"-Rechenressourcen bereitzustellen, was eine schnelle Dokumentenerkennung und Layoutvisualisierung ermöglicht.

2. Effektanzeige

Chandra hat die Kernaufgabe hervorragend erfüllt:

  • OCR für einseitige DokumenteGenerieren Sie hochpräzisen Text und Markdown aus PDFs oder Bildern.
  • LayouterkennungEs erkennt Bereiche wie Textblöcke, Tabellen und Bilder präzise und unterstützt die Layoutvisualisierung.
  • Unterstützung für mehrseitige DokumenteEs kann PDF-Dateien seitenweise verarbeiten, wobei die Seitenzahlen bei 1 beginnen, um Bereichsüberschreitungen zu vermeiden.
  • Markdown- und HTML-AusgabeAutomatische Einbettung von OCR-Ergebnissen in Markdown oder HTML sowie Unterstützung für den Download.
  • Visuelles LayoutdiagrammGenerieren Sie PIL-Bilder von annotierten Textbereichen zur einfachen Überprüfung der OCR-Genauigkeit.

3. Bedienungsschritte

1. Starten Sie den Container oder führen Sie ihn lokal aus.

Nach dem Start des Containers klicken Sie auf die API-Adresse, um auf die Weboberfläche zuzugreifen:

2. Benutzerhandbuch

Wird „Bad Gateway“ angezeigt, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie 1–2 Minuten und aktualisieren Sie die Seite.

HinweisWenn auf der Seite „Load_Model() wird ausgeführt“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie 1–2 Minuten und aktualisieren Sie die Seite anschließend.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp