HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

MinerU2.5: Ein entkoppeltes visuell-sprachliches Modell zur effizienten Verarbeitung hochauflösender Dokumente

MinerU2.5: Ein entkoppeltes visuell-sprachliches Modell zur effizienten Verarbeitung hochauflösender Dokumente

Abstract

Wir stellen MinerU2.5 vor, ein vision-sprachliches Dokumentenparsen-Modell mit 1,2 Milliarden Parametern, das eine weltweit führende Erkennungsgenauigkeit erreicht, während es gleichzeitig außergewöhnliche rechnerische Effizienz bewahrt. Unser Ansatz basiert auf einer grob-zu-fein ausgerichteten, zweistufigen Parsing-Strategie, die die globale Layout-Analyse von der lokalen Inhalts-Erkennung entkoppelt. Im ersten Schritt führt das Modell eine effiziente Layout-Analyse auf abgetasteten Bildern durch, um strukturelle Elemente zu identifizieren, wodurch die rechnerischen Kosten einer Verarbeitung hochauflösender Eingabebilder vermieden werden. Im zweiten Schritt führt es auf Basis des globalen Layouts eine gezielte Inhalts-Erkennung an Originalauflösungskarten durch, die aus dem ursprünglichen Bild extrahiert wurden, wodurch feinste Details in dichtem Text, komplexen Formeln und Tabellen erhalten bleiben. Zur Unterstützung dieser Strategie haben wir eine umfassende Daten-Engine entwickelt, die vielfältige, großskalige Trainingskorpora für sowohl das Vortrainieren als auch das Feintunen generiert. Insgesamt demonstriert MinerU2.5 eine herausragende Fähigkeit im Dokumentenparsen und erreicht weltweit führende Ergebnisse auf mehreren Benchmarks. Es übertrifft sowohl allgemein einsetzbare als auch domain-spezifische Modelle bei verschiedenen Erkennungsaufgaben, wobei es gleichzeitig eine deutlich geringere rechnerische Belastung aufweist.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MinerU2.5: Ein entkoppeltes visuell-sprachliches Modell zur effizienten Verarbeitung hochauflösender Dokumente | Forschungsarbeiten | HyperAI