HyperAIHyperAI

Command Palette

Search for a command to run...

GlobalDoc: Ein multimodales Vision-Sprache-Framework für die Abfrage und Klassifizierung von Dokumentenbildern aus der realen Welt

Souhail Bakkali Sanket Biswas Zuheng Ming Mickaël Coustaty Marçal Rusiñol Oriol Ramos Terrades Josep Lladós

Zusammenfassung

Die visuelle Dokumentenverstehens (Visual Document Understanding, VDU) hat sich mit der Entwicklung leistungsfähiger multimodaler Sprachmodelle rasant weiterentwickelt. Diese Modelle erfordern jedoch typischerweise umfangreiche Vortrainingsdaten für Dokumente, um intermediäre Darstellungen zu erlernen, und leiden oft unter einem erheblichen Leistungsabfall in realen, online-industriellen Umgebungen. Ein zentrales Problem liegt in ihrer starken Abhängigkeit von OCR-Engines zur Extraktion lokaler Positionsinformationen innerhalb von Dokumentseiten, was die Fähigkeit der Modelle einschränkt, globale Informationen zu erfassen, und ihre Generalisierbarkeit, Flexibilität und Robustheit beeinträchtigt. In diesem Artikel stellen wir GlobalDoc vor, eine auf Transformers basierende Architektur, die selbstüberwacht mit drei neuartigen Vorab-Zielaufgaben vortrainiert wurde. GlobalDoc verbessert die Lernfähigkeit komplexerer semantischer Konzepte durch die Vereinheitlichung von Sprach- und Visueldarstellungen, was zu übertragbaren Modellen führt. Zur angemessenen Evaluation schlagen wir außerdem zwei neuartige dokumentenbasierte Nachfolgaufgaben im Bereich der VDU vor: Few-Shot Document Image Classification (DIC) und Content-basierte Document Image Retrieval (DIR), die industrielle Szenarien präziser nachahmen. Um die Wirksamkeit von GlobalDoc in praktischen Anwendungen zu demonstrieren, wurden umfangreiche Experimente durchgeführt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GlobalDoc: Ein multimodales Vision-Sprache-Framework für die Abfrage und Klassifizierung von Dokumentenbildern aus der realen Welt | Paper | HyperAI