Command Palette
Search for a command to run...
MinerU2.5: Ein entkoppeltes visuell-sprachliches Modell zur effizienten Verarbeitung hochauflösender Dokumente

Abstract
Wir stellen MinerU2.5 vor, ein vision-sprachliches Dokumentenparsen-Modell mit 1,2 Milliarden Parametern, das eine weltweit führende Erkennungsgenauigkeit erreicht, während es gleichzeitig außergewöhnliche rechnerische Effizienz bewahrt. Unser Ansatz basiert auf einer grob-zu-fein ausgerichteten, zweistufigen Parsing-Strategie, die die globale Layout-Analyse von der lokalen Inhalts-Erkennung entkoppelt. Im ersten Schritt führt das Modell eine effiziente Layout-Analyse auf abgetasteten Bildern durch, um strukturelle Elemente zu identifizieren, wodurch die rechnerischen Kosten einer Verarbeitung hochauflösender Eingabebilder vermieden werden. Im zweiten Schritt führt es auf Basis des globalen Layouts eine gezielte Inhalts-Erkennung an Originalauflösungskarten durch, die aus dem ursprünglichen Bild extrahiert wurden, wodurch feinste Details in dichtem Text, komplexen Formeln und Tabellen erhalten bleiben. Zur Unterstützung dieser Strategie haben wir eine umfassende Daten-Engine entwickelt, die vielfältige, großskalige Trainingskorpora für sowohl das Vortrainieren als auch das Feintunen generiert. Insgesamt demonstriert MinerU2.5 eine herausragende Fähigkeit im Dokumentenparsen und erreicht weltweit führende Ergebnisse auf mehreren Benchmarks. Es übertrifft sowohl allgemein einsetzbare als auch domain-spezifische Modelle bei verschiedenen Erkennungsaufgaben, wobei es gleichzeitig eine deutlich geringere rechnerische Belastung aufweist.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.