vor 17 Tagen

DUBLIN -- Dokumentenverstehen durch Sprache-Bild-Netzwerke

Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu, Monojit Choudhury, Hardik Hansrajbhai Chauhan, Subhojit Som, Vishrav Chaudhary, Saurabh Tiwary

Details der Forschungsarbeit anzeigen

DUBLIN -- Dokumentenverstehen durch Sprache-Bild-Netzwerke

Abstract

Visuelle Dokumentverstehens ist eine komplexe Aufgabe, die die Analyse sowohl von Text als auch von visuellen Elementen in Dokumentbildern umfasst. Bestehende Modelle stützen sich oft auf manuelle Merkmalsingenieurarbeit oder domain-spezifische Pipeline-Strukturen, was ihre Generalisierungsfähigkeit über verschiedene Dokumenttypen und Sprachen hinweg einschränkt. In diesem Paper stellen wir DUBLIN vor, ein Modell, das auf Webseiten mittels dreier neuer Aufgaben vortrainiert wurde: dem Masked Document Text Generation Task, dem Bounding Box Task und dem Rendered Question Answering Task. Diese Aufgaben nutzen sowohl räumliche als auch semantische Informationen in Dokumentbildern. Unser Modell erreicht wettbewerbsfähige oder state-of-the-art Ergebnisse auf mehreren Benchmarks, darunter Web-Based Structural Reading Comprehension, Document Visual Question Answering, Key Information Extraction, Diagram Understanding sowie Table Question Answering. Insbesondere zeigen wir, dass DUBLIN das erste pixelbasierte Modell ist, das auf dem WebSRC-Datensatz eine Exact Match (EM) von 77,75 und eine F1-Score von 84,25 erreicht. Zudem übertrifft unser Modell die derzeitigen state-of-the-art pixelbasierten Modelle auf den Datensätzen DocVQA, InfographicsVQA, OCR-VQA und AI2D um jeweils 4,6 %, 6,5 %, 2,6 % und 21 %. Wir erzielen zudem wettbewerbsfähige Ergebnisse bei der Dokumentklassifikation auf dem RVL-CDIP-Datensatz. Darüber hinaus schaffen wir neue Baselines für textbasierte Datensätze, indem wir diese als Dokumentbilder rendern, um die Forschung in dieser Richtung voranzutreiben.