vor 11 Tagen

Text-Image-Layout-Transformer zur vollständigen Optimierung der Dokumentenverarbeitung

Rafał Powalski, Łukasz Borchmann, Dawid Jurkiewicz, Tomasz Dwojak, Michał Pietruszka, Gabriela Pałka

Abstract

Wir behandeln das anspruchsvolle Problem der natürlichen Sprachverarbeitung über reine Textdokumente hinaus, indem wir die TILT-Neuronale-Architektur einführen, die gleichzeitig Layout-Informationen, visuelle Merkmale und textuelle Semantik lernt. Im Gegensatz zu früheren Ansätzen setzen wir auf einen Decoder, der eine Vielzahl von Aufgaben im Bereich natürlicher Sprache einheitlich verarbeiten kann. Das Layout wird als Aufmerksamkeits-Bias repräsentiert und durch kontextualisierte visuelle Informationen ergänzt, während der Kern unseres Modells ein vortrainierter Encoder-Decoder-Transformer ist. Unser neuartiger Ansatz erreicht state-of-the-art-Ergebnisse bei der Informationsextraktion aus Dokumenten und der Beantwortung von Fragen, die ein Verständnis des Layouts erfordern (DocVQA, CORD, SROIE). Gleichzeitig vereinfachen wir den Prozess durch die Verwendung eines end-to-end-Modells.