vor 20 Tagen

Dolphin: Dokumentenbildanalyse durch heterogene Anchor-Prompting

Details der Forschungsarbeit anzeigen Code anzeigen

Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

Dolphin: Dokumentenbildanalyse durch heterogene Anchor-Prompting

Abstract

Die Aufbereitung von Dokumentenbildern ist aufgrund der komplexen Verflechtung verschiedener Elemente wie Textabschnitten, Abbildungen, Formeln und Tabellen herausfordernd. Aktuelle Ansätze entweder kombinieren spezialisierte Expertenmodelle oder generieren kontinuierlich Inhalte auf Seiten-Ebene autoregressiv, was trotz annehmbarer Leistung mit hohem Integrationsaufwand, Effizienzengpässen und einer Degradierung der Layoutstruktur einhergeht. Um diese Einschränkungen zu überwinden, stellen wir \textit{Dolphin} (\textit{\textbf{Do}cument Image \textbf{P}arsing via \textbf{H}eterogeneous Anchor Prompt\textbf{in}g}) vor, ein neuartiges multimodales Modell zur Dokumentenbild-Aufbereitung, das ein Analyse-erst-Aufbereitung-Paradigma verfolgt. Im ersten Schritt generiert Dolphin eine Sequenz von Layout-Elementen in Lese-Reihenfolge. Diese heterogenen Elemente dienen als Anker und werden zusammen mit themenspezifischen Prompten im zweiten Schritt parallel zur Inhalts-Aufbereitung an Dolphin zurückgegeben. Zur Schulung von Dolphin haben wir eine großskalige Datensammlung mit über 30 Millionen Samples aufgebaut, die mehrschichtige Aufbereitungsaufgaben abdeckt. Durch umfassende Evaluationen an etablierten Benchmark-Datensätzen sowie an selbst erstellten Datensätzen erreicht Dolphin state-of-the-art-Leistung in unterschiedlichen Szenarien auf Seiten- und Element-Ebene, wobei durch die leichtgewichtige Architektur und die parallele Aufbereitungsmechanik eine hervorragende Effizienz gewährleistet wird. Der Quellcode und vortrainierte Modelle sind öffentlich unter dieser https-URL verfügbar.

Code-Repositories

bytedance/dolphin

Offiziell

pytorch

In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp