MonkeyOCR: Dokumentenparsung mit einem Struktur-Erkennungs-Beziehung-Tripel-Paradigma
Adam Tauman Kalai Yael Tauman Kalai Or Zamir

Abstract
Wir stellen MonkeyOCR vor, ein Vision-Language-Modell für die Dokumentenparsung, das durch die Nutzung eines Struktur-Erkennung-Beziehung (SRR)-Tripletts die derzeitige State-of-the-Art-Leistung erweitert. Dieser Ansatz vereinfacht, was ansonsten eine komplexe Mehrwerkzeug-Pipeline darstellen würde (wie beispielsweise der modulare Ansatz von MinerU), und vermeidet die Ineffizienzen, die durch die Verarbeitung ganzer Seiten mit riesigen End-to-End-Modellen entstehen (z. B. große multimodale LLMs wie Qwen-VL). Im SRR-Paradigma wird die Dokumentenparsung in drei grundlegende Fragen abstrahiert: „Wo ist es?“ (Struktur), „Was ist es?“ (Erkennung) und „Wie ist es organisiert?“ (Beziehung) – jeweils entspricht dies der Layout-Analyse, der Inhaltsidentifikation und der logischen Ordnung. Diese gezielte Dekomposition erreicht ein Gleichgewicht zwischen Genauigkeit und Geschwindigkeit: Sie ermöglicht effiziente, skalierbare Verarbeitung ohne Kompromisse bei der Präzision. Zur Trainings- und Evaluierung dieser Methode präsentieren wir MonkeyDoc – den umfassendsten Datensatz für Dokumentenparsung bislang – mit 3,9 Millionen Instanzen, die über zehn Dokumententypen in beiden Sprachen Chinesisch und Englisch abdecken. Experimente zeigen, dass MonkeyOCR MinerU im Durchschnitt um 5,1 % übertrifft, wobei die Verbesserungen bei anspruchsvollen Inhalten wie Formeln (+15,0 %) und Tabellen (+8,6 %) besonders auffallen. Bemerkenswert ist, dass unser 3B-Parameter-Modell deutlich größere und hochperformante Modelle, darunter Qwen2.5-VL (72B) und Gemini 2.5 Pro, übertreffen und die derzeit beste durchschnittliche Leistung bei englischsprachigen Dokumentenparsungsaufgaben erreicht. Zudem verarbeitet MonkeyOCR mehrseitige Dokumente erheblich schneller (0,84 Seiten pro Sekunde gegenüber 0,65 bei MinerU und 0,12 bei Qwen2.5-VL-7B). Das 3B-Modell lässt sich effizient für Inferenz auf einer einzigen NVIDIA 3090-GPU einsetzen.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.