HyperAIHyperAI
vor 2 Monaten

LayoutMask: Verbessern der Text-Layout-Interaktion in multimodalem Vortraining für die Dokumentenverarbeitung

Yi Tu; Ya Guo; Huan Chen; Jinyang Tang
LayoutMask: Verbessern der Text-Layout-Interaktion in multimodalem Vortraining für die Dokumentenverarbeitung
Abstract

Das Verständnis visuell reicher Dokumente (VrDU) hat in den letzten Jahren viel Forschungsaufmerksamkeit erfahren. Vorab trainierte Modelle auf einer großen Anzahl von Dokumentbildern mit transformerbasierten Backbones haben zu erheblichen Leistungssteigerungen in diesem Bereich geführt. Die Hauptausforderung besteht darin, die verschiedenen Modalitäten (Text, Layout und Bild) der Dokumente in einem einheitlichen Modell mit unterschiedlichen Vorab-Trainingsaufgaben zu fusionieren. In dieser Arbeit wird der Fokus auf die Verbesserung der Interaktionen zwischen Text und Layout gelegt, und es wird ein neues multimodales Vorab-Trainingsmodell, LayoutMask, vorgeschlagen. LayoutMask verwendet lokale 1D-Positionen anstelle von globalen 1D-Positionen als Layouteingabe und verfolgt zwei Vorab-Trainingsziele: (1) Maskiertes Sprachmodell (Masked Language Modeling): Vorhersage maskierter Token mit zwei neuen Maskierungsstrategien; (2) Maskierte Positionsmodellierung (Masked Position Modeling): Vorhersage maskierter 2D-Positionen zur Verbesserung des Layoutrepräsentationslernens. LayoutMask kann die Interaktionen zwischen den Text- und Layoutmodalitäten in einem einheitlichen Modell verbessern und anpassungsfähige sowie robuste multimodale Repräsentationen für nachgelagerte Aufgaben generieren. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagener Ansatz erstklassige Ergebnisse bei einer Vielzahl von VrDU-Problemen erzielen kann, einschließlich Formularverstehens, Quittungsverstehens und der Klassifizierung von Dokumentbildern.

LayoutMask: Verbessern der Text-Layout-Interaktion in multimodalem Vortraining für die Dokumentenverarbeitung | Neueste Forschungsarbeiten | HyperAI