HyperAIHyperAI

Command Palette

Search for a command to run...

DUBLIN -- Dokumentenverstehen durch Sprache-Bild-Netzwerke

Kriti Aggarwal Aditi Khandelwal Kumar Tanmay Owais Mohammed Khan Qiang Liu Monojit Choudhury Hardik Hansrajbhai Chauhan Subhojit Som Vishrav Chaudhary Saurabh Tiwary

Zusammenfassung

Visuelle Dokumentverstehens ist eine komplexe Aufgabe, die die Analyse sowohl von Text als auch von visuellen Elementen in Dokumentbildern umfasst. Bestehende Modelle stützen sich oft auf manuelle Merkmalsingenieurarbeit oder domain-spezifische Pipeline-Strukturen, was ihre Generalisierungsfähigkeit über verschiedene Dokumenttypen und Sprachen hinweg einschränkt. In diesem Paper stellen wir DUBLIN vor, ein Modell, das auf Webseiten mittels dreier neuer Aufgaben vortrainiert wurde: dem Masked Document Text Generation Task, dem Bounding Box Task und dem Rendered Question Answering Task. Diese Aufgaben nutzen sowohl räumliche als auch semantische Informationen in Dokumentbildern. Unser Modell erreicht wettbewerbsfähige oder state-of-the-art Ergebnisse auf mehreren Benchmarks, darunter Web-Based Structural Reading Comprehension, Document Visual Question Answering, Key Information Extraction, Diagram Understanding sowie Table Question Answering. Insbesondere zeigen wir, dass DUBLIN das erste pixelbasierte Modell ist, das auf dem WebSRC-Datensatz eine Exact Match (EM) von 77,75 und eine F1-Score von 84,25 erreicht. Zudem übertrifft unser Modell die derzeitigen state-of-the-art pixelbasierten Modelle auf den Datensätzen DocVQA, InfographicsVQA, OCR-VQA und AI2D um jeweils 4,6 %, 6,5 %, 2,6 % und 21 %. Wir erzielen zudem wettbewerbsfähige Ergebnisse bei der Dokumentklassifikation auf dem RVL-CDIP-Datensatz. Darüber hinaus schaffen wir neue Baselines für textbasierte Datensätze, indem wir diese als Dokumentbilder rendern, um die Forschung in dieser Richtung voranzutreiben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DUBLIN -- Dokumentenverstehen durch Sprache-Bild-Netzwerke | Paper | HyperAI