HyperAIHyperAI

Command Palette

Search for a command to run...

Dolphin: Dokumentenbildanalyse durch heterogene Anchor-Prompting

Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

Zusammenfassung

Die Aufbereitung von Dokumentenbildern ist aufgrund der komplexen Verflechtung verschiedener Elemente wie Textabschnitten, Abbildungen, Formeln und Tabellen herausfordernd. Aktuelle Ansätze entweder kombinieren spezialisierte Expertenmodelle oder generieren kontinuierlich Inhalte auf Seiten-Ebene autoregressiv, was trotz annehmbarer Leistung mit hohem Integrationsaufwand, Effizienzengpässen und einer Degradierung der Layoutstruktur einhergeht. Um diese Einschränkungen zu überwinden, stellen wir \textit{Dolphin} (\textit{\textbf{Do}cument Image \textbf{P}arsing via \textbf{H}eterogeneous Anchor Prompt\textbf{in}g}) vor, ein neuartiges multimodales Modell zur Dokumentenbild-Aufbereitung, das ein Analyse-erst-Aufbereitung-Paradigma verfolgt. Im ersten Schritt generiert Dolphin eine Sequenz von Layout-Elementen in Lese-Reihenfolge. Diese heterogenen Elemente dienen als Anker und werden zusammen mit themenspezifischen Prompten im zweiten Schritt parallel zur Inhalts-Aufbereitung an Dolphin zurückgegeben. Zur Schulung von Dolphin haben wir eine großskalige Datensammlung mit über 30 Millionen Samples aufgebaut, die mehrschichtige Aufbereitungsaufgaben abdeckt. Durch umfassende Evaluationen an etablierten Benchmark-Datensätzen sowie an selbst erstellten Datensätzen erreicht Dolphin state-of-the-art-Leistung in unterschiedlichen Szenarien auf Seiten- und Element-Ebene, wobei durch die leichtgewichtige Architektur und die parallele Aufbereitungsmechanik eine hervorragende Effizienz gewährleistet wird. Der Quellcode und vortrainierte Modelle sind öffentlich unter dieser https-URL verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp