HyperAIHyperAI
vor 2 Monaten

StrucTexTv2: Maskierte visuelle-textuelle Vorhersage für die Vorverarbeitung von Dokumentenbildern

Yuechen Yu; Yulin Li; Chengquan Zhang; Xiaoqiang Zhang; Zengyuan Guo; Xiameng Qin; Kun Yao; Junyu Han; Errui Ding; Jingdong Wang
StrucTexTv2: Maskierte visuelle-textuelle Vorhersage für die Vorverarbeitung von Dokumentenbildern
Abstract

In dieser Arbeit stellen wir StrucTexTv2 vor, einen effektiven Vortrainingsrahmen für Dokumentbilder, der durch maschinelles visuell-textuelles Vorhersagemodellieren arbeitet. Er besteht aus zwei selbstüberwachten Vortrainingsaufgaben: dem maschinellen Bildmodellieren und dem maschinellen Sprachmodellieren, basierend auf der Textregionsebene-Bildmaskierung. Die vorgeschlagene Methode maskiert zufällig einige Bildbereiche gemäß den Begrenzungsbox-Koordinaten von Textwörtern. Die Ziele unserer Vortrainingsaufgaben sind die gleichzeitige Rekonstruktion der Pixel der maskierten Bildbereiche und der entsprechenden maskierten Token. Daher kann der vortrainierte Encoder im Vergleich zu maschinellen Bildmodellen, die normalerweise die maskierten Bildsegmente vorhersagen, mehr textuelle Semantik erfassen. Im Vergleich zu maschinellen multimodalen Modellierungsmethoden für das Verständnis von Dokumentbildern, die sowohl auf Bilder als auch auf Text angewiesen sind, modelliert StrucTexTv2 einziges Bild-Eingang und kann potentiell in mehr Anwendungsszenarien eingesetzt werden, ohne dass eine OCR-Vorverarbeitung erforderlich ist. Ausführliche Experimente an führenden Benchmarks des Verständnisses von Dokumentbildern zeigen die Effektivität von StrucTexTv2. Es erzielt wettbewerbsfähige oder sogar neue Standartleistungen (state-of-the-art) in verschiedenen Downstream-Aufgaben wie Bildklassifizierung, Layoutanalyse, Tabellenstrukturerkennung, Dokument-OCR und Informationsextraktion im End-to-End-Szenario.

StrucTexTv2: Maskierte visuelle-textuelle Vorhersage für die Vorverarbeitung von Dokumentenbildern | Neueste Forschungsarbeiten | HyperAI