DocFormer: End-to-End Transformer für die Dokumentenverarbeitung

Wir stellen DocFormer vor – eine multimodale Transformer-Architektur für die Aufgabe des Visual Document Understanding (VDU). VDU ist ein anspruchsvolles Problem, das darauf abzielt, Dokumente in ihren unterschiedlichen Formaten (Formulare, Belege usw.) und Layouts zu verstehen. Zudem wird DocFormer auf unsupervisierter Weise mit sorgfältig entworfenen Aufgaben vortrainiert, die eine starke multimodale Interaktion fördern. DocFormer nutzt Text-, Visions- und räumliche Merkmale und kombiniert sie mittels einer neuartigen multimodalen Selbst-Attention-Schicht. Darüber hinaus teilt DocFormer gelernte räumliche Embeddings über verschiedene Modalitäten hinweg, was es dem Modell erleichtert, Text-Token mit visuellen Token zu korrelieren und umgekehrt. DocFormer wird an vier verschiedenen Datensätzen evaluiert, jeweils mit starken Baselines. Auf allen Datensätzen erzielt DocFormer state-of-the-art Ergebnisse, wobei es manchmal Modelle schlägt, die viermal so viele Parameter (Anzahl der Parameter) besitzen.