HyperAIHyperAI
vor 17 Tagen

Transformer-basierter Ansatz für die Dokumentenverstehens

{William Hsu, Huichen Yang}
Abstract

Wir präsentieren einen end-to-end-Transformers-basierten Rahmenwerk namens TRDLU für die Aufgabe der Dokumentenlayout-Verständnis (Document Layout Understanding, DLU). DLU ist die grundlegende Aufgabe zur automatischen Interpretation von Dokumentenstrukturen. Die genaue Erkennung von Inhaltsschachteln und deren Klassifizierung in semantisch sinnvolle Klassen aus verschiedenen Dokumentformaten bleibt weiterhin eine offene Herausforderung. In letzter Zeit haben Transformers-basierte Detektionsneuronale Netzwerke in der Objekterkennung ihre Überlegenheit gegenüber herkömmlichen convolutional-basierten Methoden gezeigt. In diesem Artikel betrachten wir DLU als eine Detektionsaufgabe und führen TRDLU ein, das einen Transformers-basierten Vision-Backbone sowie einen Transformers-Encoder-Decoder als Detektionspipeline integriert. TRDLU ist ausschließlich auf visuellen Merkmalen basiert, erzielt jedoch eine Leistung, die sogar die von multimodalen Merkmalen basierenden Modelle übertrifft. So weit uns bekannt ist, stellt dies die erste Studie dar, die ein vollständig Transformers-basiertes Framework für DLU-Aufgaben einsetzt. Wir haben TRDLU an drei unterschiedlichen DLU-Benchmark-Datensätzen evaluiert, jeweils mit starken Baselines. TRDLU übertrifft auf allen drei Datensätzen die derzeitigen State-of-the-Art-Methoden.