HyperAIHyperAI
vor 2 Monaten

LayoutReader: Vorkenntnis von Text und Layout für die Erkennung der Lesereihenfolge

Zilong Wang; Yiheng Xu; Lei Cui; Jingbo Shang; Furu Wei
LayoutReader: Vorkenntnis von Text und Layout für die Erkennung der Lesereihenfolge
Abstract

Die Erkennung der Lesereihenfolge ist die Grundlage für das Verständnis visuell reicher Dokumente (z. B. Quittungen und Formulare). Leider haben bisherige Arbeiten nicht von fortgeschrittenen Deep-Learning-Modellen profitiert, da die Annotation eines ausreichend großen Datensatzes zu aufwendig ist. Wir beobachten, dass die Lesereihenfolge von WORD-Dokumenten in ihren XML-Metadaten eingebettet ist; gleichzeitig lässt sich ein WORD-Dokument leicht in PDFs oder Bilder konvertieren. Daher bauen wir auf automatisierte Weise ReadingBank auf, einen Benchmark-Datensatz, der Lesereihenfolge-, Text- und Layoutinformationen für 500.000 Dokumentbilder enthält, die eine breite Palette von Dokumenttypen abdecken. Dieser erstmalige große Datensatz entfesselt die Kraft tiefer neuronaler Netze für die Erkennung der Lesereihenfolge. Insbesondere erfasst unser vorgeschlagener LayoutReader Text- und Layoutinformationen zur Vorhersage der Lesereihenfolge mithilfe des seq2seq-Modells. In unseren Experimenten zeigt er nahezu perfekte Leistungen bei der Erkennung der Lesereihenfolge und verbessert erheblich sowohl Open-Source- als auch kommerzielle OCR-Engines hinsichtlich der Anordnung von Textzeilen in ihren Ergebnissen. Wir werden den Datensatz und das Modell unter \url{https://aka.ms/layoutreader} veröffentlichen.

LayoutReader: Vorkenntnis von Text und Layout für die Erkennung der Lesereihenfolge | Neueste Forschungsarbeiten | HyperAI