HyperAIHyperAI

Command Palette

Search for a command to run...

ERNIE-Layout: Layoutwissen verstärktes Vortraining für die Verarbeitung von visuell reichen Dokumenten

Zusammenfassung

In den letzten Jahren hat es einen Aufschwung und Erfolg der Vortrainingsmethoden im Bereich des Verständnisses visuell reichhaltiger Dokumente gegeben. Dennoch fehlen die meisten existierenden Ansätze eine systematische Auswertung und Nutzung von layoutzentrierten Kenntnissen, was zu suboptimalen Leistungen führt. In dieser Arbeit schlagen wir ERNIE-Layout vor, eine innovative Vortrainingslösung für Dokumente, die das gesamte Workflow mit layoutzentrierten Wissensverbesserungen durchzieht, um bessere Repräsentationen zu erlernen, die Text-, Layout- und Bildmerkmale kombinieren. Insbesondere ordnen wir zunächst die Eingabesequenzen in der Serialisierungsphase neu an und stellen dann eine korrelative Vortrainingaufgabe, die Vorhersage der Lesereihenfolge, vor, um die richtige Lesereihenfolge von Dokumenten zu erlernen. Um die Layoutbewusstheit des Modells zu verbessern, integrieren wir eine räumlich bewusste disentangled Attention (räumlich getrennte Aufmerksamkeit) in den multimodalen Transformer sowie eine Aufgabe zur Vorhersage ersetzerter Bereiche in die Vortrainingphase. Die experimentellen Ergebnisse zeigen, dass ERNIE-Layout auf verschiedenen Downstream-Aufgaben überlegene Leistungen erzielt und neue Standarts im Schlüsselinformationsextraktions-, Dokumentbildklassifikations- und Dokumentfragebeantwortungsdatensatz setzt. Der Code und die Modelle sind öffentlich unter http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ERNIE-Layout: Layoutwissen verstärktes Vortraining für die Verarbeitung von visuell reichen Dokumenten | Paper | HyperAI