HyperAIHyperAI

Command Palette

Search for a command to run...

Text-Image-Layout-Transformer zur vollständigen Optimierung der Dokumentenverarbeitung

Rafał Powalski Łukasz Borchmann Dawid Jurkiewicz Tomasz Dwojak Michał Pietruszka Gabriela Pałka

Zusammenfassung

Wir behandeln das anspruchsvolle Problem der natürlichen Sprachverarbeitung über reine Textdokumente hinaus, indem wir die TILT-Neuronale-Architektur einführen, die gleichzeitig Layout-Informationen, visuelle Merkmale und textuelle Semantik lernt. Im Gegensatz zu früheren Ansätzen setzen wir auf einen Decoder, der eine Vielzahl von Aufgaben im Bereich natürlicher Sprache einheitlich verarbeiten kann. Das Layout wird als Aufmerksamkeits-Bias repräsentiert und durch kontextualisierte visuelle Informationen ergänzt, während der Kern unseres Modells ein vortrainierter Encoder-Decoder-Transformer ist. Unser neuartiger Ansatz erreicht state-of-the-art-Ergebnisse bei der Informationsextraktion aus Dokumenten und der Beantwortung von Fragen, die ein Verständnis des Layouts erfordern (DocVQA, CORD, SROIE). Gleichzeitig vereinfachen wir den Prozess durch die Verwendung eines end-to-end-Modells.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp