GlobalDoc: Ein multimodales Vision-Sprache-Framework für die Abfrage und Klassifizierung von Dokumentenbildern aus der realen Welt

Die visuelle Dokumentenverstehens (Visual Document Understanding, VDU) hat sich mit der Entwicklung leistungsfähiger multimodaler Sprachmodelle rasant weiterentwickelt. Diese Modelle erfordern jedoch typischerweise umfangreiche Vortrainingsdaten für Dokumente, um intermediäre Darstellungen zu erlernen, und leiden oft unter einem erheblichen Leistungsabfall in realen, online-industriellen Umgebungen. Ein zentrales Problem liegt in ihrer starken Abhängigkeit von OCR-Engines zur Extraktion lokaler Positionsinformationen innerhalb von Dokumentseiten, was die Fähigkeit der Modelle einschränkt, globale Informationen zu erfassen, und ihre Generalisierbarkeit, Flexibilität und Robustheit beeinträchtigt. In diesem Artikel stellen wir GlobalDoc vor, eine auf Transformers basierende Architektur, die selbstüberwacht mit drei neuartigen Vorab-Zielaufgaben vortrainiert wurde. GlobalDoc verbessert die Lernfähigkeit komplexerer semantischer Konzepte durch die Vereinheitlichung von Sprach- und Visueldarstellungen, was zu übertragbaren Modellen führt. Zur angemessenen Evaluation schlagen wir außerdem zwei neuartige dokumentenbasierte Nachfolgaufgaben im Bereich der VDU vor: Few-Shot Document Image Classification (DIC) und Content-basierte Document Image Retrieval (DIR), die industrielle Szenarien präziser nachahmen. Um die Wirksamkeit von GlobalDoc in praktischen Anwendungen zu demonstrieren, wurden umfangreiche Experimente durchgeführt.