HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer-basierter Ansatz für die Dokumentenverstehens

William Hsu Huichen Yang

Zusammenfassung

Wir präsentieren einen end-to-end-Transformers-basierten Rahmenwerk namens TRDLU für die Aufgabe der Dokumentenlayout-Verständnis (Document Layout Understanding, DLU). DLU ist die grundlegende Aufgabe zur automatischen Interpretation von Dokumentenstrukturen. Die genaue Erkennung von Inhaltsschachteln und deren Klassifizierung in semantisch sinnvolle Klassen aus verschiedenen Dokumentformaten bleibt weiterhin eine offene Herausforderung. In letzter Zeit haben Transformers-basierte Detektionsneuronale Netzwerke in der Objekterkennung ihre Überlegenheit gegenüber herkömmlichen convolutional-basierten Methoden gezeigt. In diesem Artikel betrachten wir DLU als eine Detektionsaufgabe und führen TRDLU ein, das einen Transformers-basierten Vision-Backbone sowie einen Transformers-Encoder-Decoder als Detektionspipeline integriert. TRDLU ist ausschließlich auf visuellen Merkmalen basiert, erzielt jedoch eine Leistung, die sogar die von multimodalen Merkmalen basierenden Modelle übertrifft. So weit uns bekannt ist, stellt dies die erste Studie dar, die ein vollständig Transformers-basiertes Framework für DLU-Aufgaben einsetzt. Wir haben TRDLU an drei unterschiedlichen DLU-Benchmark-Datensätzen evaluiert, jeweils mit starken Baselines. TRDLU übertrifft auf allen drei Datensätzen die derzeitigen State-of-the-Art-Methoden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Transformer-basierter Ansatz für die Dokumentenverstehens | Paper | HyperAI