HyperAIHyperAI

Command Palette

Search for a command to run...

LayoutLM: Vorerzeugung von Text und Layout für die Dokumentenbildverarbeitung

Zusammenfassung

Vor-Trainingstechniken wurden in den letzten Jahren erfolgreich in einer Vielzahl von NLP-Aufgaben verifiziert. Trotz der weit verbreiteten Verwendung von Vor-Trainingsmodellen für NLP-Anwendungen konzentrieren sie sich fast ausschließlich auf textbasierte Manipulationen und vernachlässigen dabei die für das Verständnis von Dokumentbildern wichtige Layout- und Stilinformationen. In dieser Arbeit schlagen wir LayoutLM vor, um die Wechselwirkungen zwischen Text und Layoutinformationen in gescannten Dokumentbildern gemeinsam zu modellieren, was für zahlreiche realweltliche Aufgaben des Verständnisses von Dokumentbildern, wie z.B. die Informationsextraktion aus gescannten Dokumenten, von Vorteil ist. Darüber hinaus nutzen wir auch Bildmerkmale, um visuelle Informationen der Wörter in LayoutLM zu integrieren. Nach unserem Wissen ist dies das erste Mal, dass Text und Layout in einem einzigen Framework gemeinsam gelernt werden, um ein dokumentspezifisches Vor-Training durchzuführen. Es erzielt neue Stand der Technik-Ergebnisse in mehreren nachgelagerten Aufgaben, darunter Formularverstehen (von 70,72 auf 79,27), Quittungsverstehen (von 94,02 auf 95,24) und Dokumentbildklassifizierung (von 93,07 auf 94,42). Der Code und die vortrainierten LayoutLM-Modelle sind öffentlich unter \url{https://aka.ms/layoutlm} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp