vor 4 Monaten

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

Zusammenfassung

Wir stellen MinerU2.5 vor, ein vision-sprachliches Dokumentenparsen-Modell mit 1,2 Milliarden Parametern, das eine weltweit führende Erkennungsgenauigkeit erreicht, während es gleichzeitig außergewöhnliche rechnerische Effizienz bewahrt. Unser Ansatz basiert auf einer grob-zu-fein ausgerichteten, zweistufigen Parsing-Strategie, die die globale Layout-Analyse von der lokalen Inhalts-Erkennung entkoppelt. Im ersten Schritt führt das Modell eine effiziente Layout-Analyse auf abgetasteten Bildern durch, um strukturelle Elemente zu identifizieren, wodurch die rechnerischen Kosten einer Verarbeitung hochauflösender Eingabebilder vermieden werden. Im zweiten Schritt führt es auf Basis des globalen Layouts eine gezielte Inhalts-Erkennung an Originalauflösungskarten durch, die aus dem ursprünglichen Bild extrahiert wurden, wodurch feinste Details in dichtem Text, komplexen Formeln und Tabellen erhalten bleiben. Zur Unterstützung dieser Strategie haben wir eine umfassende Daten-Engine entwickelt, die vielfältige, großskalige Trainingskorpora für sowohl das Vortrainieren als auch das Feintunen generiert. Insgesamt demonstriert MinerU2.5 eine herausragende Fähigkeit im Dokumentenparsen und erreicht weltweit führende Ergebnisse auf mehreren Benchmarks. Es übertrifft sowohl allgemein einsetzbare als auch domain-spezifische Modelle bei verschiedenen Erkennungsaufgaben, wobei es gleichzeitig eine deutlich geringere rechnerische Belastung aufweist.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MinerU2.5: Ein entkoppeltes visuell-sprachliches Modell zur effizienten Verarbeitung hochauflösender Dokumente

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang51 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MinerU2.5: Ein entkoppeltes visuell-sprachliches Modell zur effizienten Verarbeitung hochauflösender Dokumente

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang51 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MinerU2.5: Ein entkoppeltes visuell-sprachliches Modell zur effizienten Verarbeitung hochauflösender Dokumente

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang51 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang

Junbo Niu Zheng Liu Zhuangcheng Gu Bin Wang Linke Ouyang Zhiyuan Zhao Tao Chu Tianyao He Fan Wu Qintong Zhang