ERNIE-Layout: Layoutwissen verstärktes Vortraining für die Verarbeitung von visuell reichen Dokumenten

In den letzten Jahren hat es einen Aufschwung und Erfolg der Vortrainingsmethoden im Bereich des Verständnisses visuell reichhaltiger Dokumente gegeben. Dennoch fehlen die meisten existierenden Ansätze eine systematische Auswertung und Nutzung von layoutzentrierten Kenntnissen, was zu suboptimalen Leistungen führt. In dieser Arbeit schlagen wir ERNIE-Layout vor, eine innovative Vortrainingslösung für Dokumente, die das gesamte Workflow mit layoutzentrierten Wissensverbesserungen durchzieht, um bessere Repräsentationen zu erlernen, die Text-, Layout- und Bildmerkmale kombinieren. Insbesondere ordnen wir zunächst die Eingabesequenzen in der Serialisierungsphase neu an und stellen dann eine korrelative Vortrainingaufgabe, die Vorhersage der Lesereihenfolge, vor, um die richtige Lesereihenfolge von Dokumenten zu erlernen. Um die Layoutbewusstheit des Modells zu verbessern, integrieren wir eine räumlich bewusste disentangled Attention (räumlich getrennte Aufmerksamkeit) in den multimodalen Transformer sowie eine Aufgabe zur Vorhersage ersetzerter Bereiche in die Vortrainingphase. Die experimentellen Ergebnisse zeigen, dass ERNIE-Layout auf verschiedenen Downstream-Aufgaben überlegene Leistungen erzielt und neue Standarts im Schlüsselinformationsextraktions-, Dokumentbildklassifikations- und Dokumentfragebeantwortungsdatensatz setzt. Der Code und die Modelle sind öffentlich unter http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout verfügbar.