Command Palette
Search for a command to run...
Text-Image-Layout-Transformer zur vollständigen Optimierung der Dokumentenverarbeitung
Text-Image-Layout-Transformer zur vollständigen Optimierung der Dokumentenverarbeitung
Rafał Powalski Łukasz Borchmann Dawid Jurkiewicz Tomasz Dwojak Michał Pietruszka Gabriela Pałka
Zusammenfassung
Wir behandeln das anspruchsvolle Problem der natürlichen Sprachverarbeitung über reine Textdokumente hinaus, indem wir die TILT-Neuronale-Architektur einführen, die gleichzeitig Layout-Informationen, visuelle Merkmale und textuelle Semantik lernt. Im Gegensatz zu früheren Ansätzen setzen wir auf einen Decoder, der eine Vielzahl von Aufgaben im Bereich natürlicher Sprache einheitlich verarbeiten kann. Das Layout wird als Aufmerksamkeits-Bias repräsentiert und durch kontextualisierte visuelle Informationen ergänzt, während der Kern unseres Modells ein vortrainierter Encoder-Decoder-Transformer ist. Unser neuartiger Ansatz erreicht state-of-the-art-Ergebnisse bei der Informationsextraktion aus Dokumenten und der Beantwortung von Fragen, die ein Verständnis des Layouts erfordern (DocVQA, CORD, SROIE). Gleichzeitig vereinfachen wir den Prozess durch die Verwendung eines end-to-end-Modells.