HyperAIHyperAI

Command Palette

Search for a command to run...

DocFormer: End-to-End Transformer für die Dokumentenverarbeitung

Srikar Appalaraju Bhavan Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha

Zusammenfassung

Wir stellen DocFormer vor – eine multimodale Transformer-Architektur für die Aufgabe des Visual Document Understanding (VDU). VDU ist ein anspruchsvolles Problem, das darauf abzielt, Dokumente in ihren unterschiedlichen Formaten (Formulare, Belege usw.) und Layouts zu verstehen. Zudem wird DocFormer auf unsupervisierter Weise mit sorgfältig entworfenen Aufgaben vortrainiert, die eine starke multimodale Interaktion fördern. DocFormer nutzt Text-, Visions- und räumliche Merkmale und kombiniert sie mittels einer neuartigen multimodalen Selbst-Attention-Schicht. Darüber hinaus teilt DocFormer gelernte räumliche Embeddings über verschiedene Modalitäten hinweg, was es dem Modell erleichtert, Text-Token mit visuellen Token zu korrelieren und umgekehrt. DocFormer wird an vier verschiedenen Datensätzen evaluiert, jeweils mit starken Baselines. Auf allen Datensätzen erzielt DocFormer state-of-the-art Ergebnisse, wobei es manchmal Modelle schlägt, die viermal so viele Parameter (Anzahl der Parameter) besitzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp