vor 8 Monaten

Zusammenfassung

Die Erkennung der Lesereihenfolge ist die Grundlage für das Verständnis visuell reicher Dokumente (z. B. Quittungen und Formulare). Leider haben bisherige Arbeiten nicht von fortgeschrittenen Deep-Learning-Modellen profitiert, da die Annotation eines ausreichend großen Datensatzes zu aufwendig ist. Wir beobachten, dass die Lesereihenfolge von WORD-Dokumenten in ihren XML-Metadaten eingebettet ist; gleichzeitig lässt sich ein WORD-Dokument leicht in PDFs oder Bilder konvertieren. Daher bauen wir auf automatisierte Weise ReadingBank auf, einen Benchmark-Datensatz, der Lesereihenfolge-, Text- und Layoutinformationen für 500.000 Dokumentbilder enthält, die eine breite Palette von Dokumenttypen abdecken. Dieser erstmalige große Datensatz entfesselt die Kraft tiefer neuronaler Netze für die Erkennung der Lesereihenfolge. Insbesondere erfasst unser vorgeschlagener LayoutReader Text- und Layoutinformationen zur Vorhersage der Lesereihenfolge mithilfe des seq2seq-Modells. In unseren Experimenten zeigt er nahezu perfekte Leistungen bei der Erkennung der Lesereihenfolge und verbessert erheblich sowohl Open-Source- als auch kommerzielle OCR-Engines hinsichtlich der Anordnung von Textzeilen in ihren Ergebnissen. Wir werden den Datensatz und das Modell unter \url{https://aka.ms/layoutreader} veröffentlichen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Natürliche Sprachverarbeitung

Computervision

Aufgabe

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Natürliche Sprachverarbeitung

Computervision

Aufgabe

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

LayoutReader: Vorkenntnis von Text und Layout für die Erkennung der Lesereihenfolge | Paper | HyperAI

Command Palette

LayoutReader: Vorkenntnis von Text und Layout für die Erkennung der Lesereihenfolge

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LayoutReader: Vorkenntnis von Text und Layout für die Erkennung der Lesereihenfolge

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LayoutReader: Vorkenntnis von Text und Layout für die Erkennung der Lesereihenfolge

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters