Command Palette
Search for a command to run...
Dolphin: Dokumentenbildanalyse durch heterogene Anchor-Prompting
Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

Abstract
Die Aufbereitung von Dokumentenbildern ist aufgrund der komplexen Verflechtung verschiedener Elemente wie Textabschnitten, Abbildungen, Formeln und Tabellen herausfordernd. Aktuelle Ansätze entweder kombinieren spezialisierte Expertenmodelle oder generieren kontinuierlich Inhalte auf Seiten-Ebene autoregressiv, was trotz annehmbarer Leistung mit hohem Integrationsaufwand, Effizienzengpässen und einer Degradierung der Layoutstruktur einhergeht. Um diese Einschränkungen zu überwinden, stellen wir \textit{Dolphin} (\textit{\textbf{Do}cument Image \textbf{P}arsing via \textbf{H}eterogeneous Anchor Prompt\textbf{in}g}) vor, ein neuartiges multimodales Modell zur Dokumentenbild-Aufbereitung, das ein Analyse-erst-Aufbereitung-Paradigma verfolgt. Im ersten Schritt generiert Dolphin eine Sequenz von Layout-Elementen in Lese-Reihenfolge. Diese heterogenen Elemente dienen als Anker und werden zusammen mit themenspezifischen Prompten im zweiten Schritt parallel zur Inhalts-Aufbereitung an Dolphin zurückgegeben. Zur Schulung von Dolphin haben wir eine großskalige Datensammlung mit über 30 Millionen Samples aufgebaut, die mehrschichtige Aufbereitungsaufgaben abdeckt. Durch umfassende Evaluationen an etablierten Benchmark-Datensätzen sowie an selbst erstellten Datensätzen erreicht Dolphin state-of-the-art-Leistung in unterschiedlichen Szenarien auf Seiten- und Element-Ebene, wobei durch die leichtgewichtige Architektur und die parallele Aufbereitungsmechanik eine hervorragende Effizienz gewährleistet wird. Der Quellcode und vortrainierte Modelle sind öffentlich unter dieser https-URL verfügbar.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.