HyperAIHyperAI

Command Palette

Search for a command to run...

LayoutReader: Vorkenntnis von Text und Layout für die Erkennung der Lesereihenfolge

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

Zusammenfassung

Die Erkennung der Lesereihenfolge ist die Grundlage für das Verständnis visuell reicher Dokumente (z. B. Quittungen und Formulare). Leider haben bisherige Arbeiten nicht von fortgeschrittenen Deep-Learning-Modellen profitiert, da die Annotation eines ausreichend großen Datensatzes zu aufwendig ist. Wir beobachten, dass die Lesereihenfolge von WORD-Dokumenten in ihren XML-Metadaten eingebettet ist; gleichzeitig lässt sich ein WORD-Dokument leicht in PDFs oder Bilder konvertieren. Daher bauen wir auf automatisierte Weise ReadingBank auf, einen Benchmark-Datensatz, der Lesereihenfolge-, Text- und Layoutinformationen für 500.000 Dokumentbilder enthält, die eine breite Palette von Dokumenttypen abdecken. Dieser erstmalige große Datensatz entfesselt die Kraft tiefer neuronaler Netze für die Erkennung der Lesereihenfolge. Insbesondere erfasst unser vorgeschlagener LayoutReader Text- und Layoutinformationen zur Vorhersage der Lesereihenfolge mithilfe des seq2seq-Modells. In unseren Experimenten zeigt er nahezu perfekte Leistungen bei der Erkennung der Lesereihenfolge und verbessert erheblich sowohl Open-Source- als auch kommerzielle OCR-Engines hinsichtlich der Anordnung von Textzeilen in ihren Ergebnissen. Wir werden den Datensatz und das Modell unter \url{https://aka.ms/layoutreader} veröffentlichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp