HyperAI

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

1. Einführung in das Tutorial

Bauen

MonkeyOCR ist ein am 5. Juni 2025 von der Huazhong University of Science and Technology und Kingsoft Office als Open Source bereitgestelltes Modell zur Dokumentenanalyse. Das Modell unterstützt die effiziente Konvertierung unstrukturierter Dokumentinhalte in strukturierte Informationen. Dank präziser Layoutanalyse, Inhaltserkennung und logischer Sortierung werden Genauigkeit und Effizienz der Dokumentenanalyse deutlich verbessert. Im Vergleich zu herkömmlichen Methoden bietet MonkeyOCR eine hervorragende Leistung bei der Verarbeitung komplexer Dokumente (z. B. mit Formeln und Tabellen) mit einer durchschnittlichen Leistungssteigerung von 5,11 TP3T sowie Verbesserungen von 15,01 TP3T bzw. 8,61 TP3T bei der Formel- und Tabellenanalyse. Auch bei mehrseitigen Dokumenten erreicht das Modell eine hohe Leistung von 0,84 Seiten pro Sekunde und übertrifft damit vergleichbare Tools deutlich. MonkeyOCR unterstützt eine Vielzahl von Dokumenttypen, darunter wissenschaftliche Arbeiten, Lehrbücher, Zeitungen usw., ist mehrsprachig und bietet umfassende Unterstützung für die Dokumentendigitalisierung und -automatisierung. Die Ergebnisse der Studie lauten:MonkeyOCR: Dokumentanalyse mit einem Struktur-Erkennungs-Relations-Triplet-Paradigma".

Hauptmerkmale:

  • Dokumentanalyse und -strukturierung: Konvertieren Sie unstrukturierte Inhalte (einschließlich Text, Tabellen, Formeln, Bilder usw.) in Dokumenten verschiedener Formate (wie PDF, Bilder usw.) in strukturierte, maschinenlesbare Informationen.
  • Mehrsprachige Unterstützung: Unterstützt mehrere Sprachen, darunter Chinesisch und Englisch.
  • Effiziente Verarbeitung komplexer Dokumente: Die Leistung ist gut bei der Verarbeitung komplexer Dokumente (z. B. solcher mit Formeln, Tabellen, mehrspaltigen Layouts usw.).
  • Schnelle Verarbeitung mehrseitiger Dokumente: Effiziente Verarbeitung mehrseitiger Dokumente mit einer Verarbeitungsgeschwindigkeit von 0,84 Seiten pro Sekunde, deutlich besser als andere Tools (z. B. MinerU 0,65 Seiten pro Sekunde, Qwen2.5-VL-7B 0,12 Seiten pro Sekunde).
  • Flexible Bereitstellung und Erweiterung: Unterstützt die effiziente Bereitstellung auf einer einzelnen NVIDIA 3090-GPU, um Anforderungen unterschiedlicher Größenordnungen gerecht zu werden.

Technisches Prinzip:

  • Struktur-Erkennungs-Beziehung (SRR)-Tripelparadigma: Ein auf YOLO basierender Dokumentlayout-Detektor, der die Position und Kategorie von Schlüsselelementen in einem Dokument (wie Textblöcken, Tabellen, Formeln, Bildern usw.) identifiziert. Die Inhaltserkennung erfolgt für jede erkannte Region. Die End-to-End-Erkennung erfolgt mithilfe eines großen multimorphen Modells (LMM), um eine hohe Genauigkeit zu gewährleisten. Basierend auf einem Mechanismus zur Vorhersage der Lesereihenfolge auf Blockebene wird die logische Beziehung zwischen den erkannten Elementen ermittelt, um die semantische Struktur des Dokuments zu rekonstruieren.
  • MonkeyDoc-Datensatz: MonkeyDoc ist der bislang umfassendste Datensatz zur Dokumentanalyse. Er enthält 3,9 Millionen Instanzen und deckt mehr als zehn Dokumenttypen in Chinesisch und Englisch ab. Der Datensatz basiert auf einer mehrstufigen Pipeline, die sorgfältige manuelle Annotation, programmatische Synthese und modellbasierte automatische Annotation integriert. Er dient zum Trainieren und Evaluieren von MonkeyOCR-Modellen und gewährleistet so starke Generalisierungsmöglichkeiten in vielfältigen und komplexen Dokumentszenarien.
  • Modelloptimierung und -bereitstellung: Der AdamW-Optimierer und die Cosinus-Lernratenplanung werden in Kombination mit umfangreichen Datensätzen für das Training verwendet, um ein Gleichgewicht zwischen Modellgenauigkeit und Effizienz zu gewährleisten. Basierend auf dem LMDeplov-Tool kann MonkeyOCR effizient auf einer einzelnen NVIDIA 3090-GPU ausgeführt werden und unterstützt schnelles Denken und die Bereitstellung im großen Maßstab.

Die in diesem Tutorial verwendeten Rechenressourcen sind eine einzelne RTX 4090-Karte.

2. Effektanzeige

Beispiel für ein Formeldokument

7jVLgB.jpg

Beispiel für ein Tabellendokument

7jcOaa.png

Zeitungsbeispiel

7jcP5V.png

Beispiel für einen Finanzbericht

7jc10I.png
7jcRCL.png

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@misc{li2025monkeyocrdocumentparsingstructurerecognitionrelation,
      title={MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm}, 
      author={Zhang Li and Yuliang Liu and Qiang Liu and Zhiyin Ma and Ziyang Zhang and Shuo Zhang and Zidun Guo and Jiarui Zhang and Xinyu Wang and Xiang Bai},
      year={2025},
      eprint={2506.05218},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2506.05218}, 
}