vor 2 Monaten

LayoutLM: Vorerzeugung von Text und Layout für die Dokumentenbildverarbeitung

Yiheng Xu; Minghao Li; Lei Cui; Shaohan Huang; Furu Wei; Ming Zhou

Abstract

Vor-Trainingstechniken wurden in den letzten Jahren erfolgreich in einer Vielzahl von NLP-Aufgaben verifiziert. Trotz der weit verbreiteten Verwendung von Vor-Trainingsmodellen für NLP-Anwendungen konzentrieren sie sich fast ausschließlich auf textbasierte Manipulationen und vernachlässigen dabei die für das Verständnis von Dokumentbildern wichtige Layout- und Stilinformationen. In dieser Arbeit schlagen wir LayoutLM vor, um die Wechselwirkungen zwischen Text und Layoutinformationen in gescannten Dokumentbildern gemeinsam zu modellieren, was für zahlreiche realweltliche Aufgaben des Verständnisses von Dokumentbildern, wie z.B. die Informationsextraktion aus gescannten Dokumenten, von Vorteil ist. Darüber hinaus nutzen wir auch Bildmerkmale, um visuelle Informationen der Wörter in LayoutLM zu integrieren. Nach unserem Wissen ist dies das erste Mal, dass Text und Layout in einem einzigen Framework gemeinsam gelernt werden, um ein dokumentspezifisches Vor-Training durchzuführen. Es erzielt neue Stand der Technik-Ergebnisse in mehreren nachgelagerten Aufgaben, darunter Formularverstehen (von 70,72 auf 79,27), Quittungsverstehen (von 94,02 auf 95,24) und Dokumentbildklassifizierung (von 93,07 auf 94,42). Der Code und die vortrainierten LayoutLM-Modelle sind öffentlich unter \url{https://aka.ms/layoutlm} verfügbar.