HyperAIHyperAI

Command Palette

Search for a command to run...

Bildbasierte Tabellenerkennung: Daten, Modell und Evaluation

Xu Zhong; Elaheh ShafieiBavani; Antonio Jimeno Yepes

Zusammenfassung

Wichtige Informationen, die sich auf ein bestimmtes Thema in einem Dokument beziehen, werden oft in tabellarischer Form organisiert, um den Lesern bei der Informationsrecherche und -vergleich zu helfen, was in natürlicher Sprache schwierig sein könnte. Tabellarische Daten in unstrukturierten digitalen Dokumenten, wie z.B. im Portable Document Format (PDF) und Bildern, sind jedoch aufgrund ihrer Komplexität und Vielfalt in Struktur und Stil schwer zu analysieren und in ein strukturiertes maschinenlesbares Format umzuwandeln. Um die bildbasierte Tabellenerkennung mit tiefem Lernen zu erleichtern, haben wir den größten öffentlich verfügbaren Datensatz für Tabellenerkennung namens PubTabNet (https://github.com/ibm-aur-nlp/PubTabNet) entwickelt. Dieser enthält 568.000 Tabellenbilder mit entsprechender strukturierter HTML-Darstellung. PubTabNet wird automatisch generiert, indem die XML- und PDF-Darstellungen der wissenschaftlichen Artikel im PubMed Central Open Access Subset (PMCOA) abgeglichen werden. Darüber hinaus schlagen wir eine neuartige aufmerksamkeitsbasierte Encoder-Dual-Decoder (EDD)-Architektur vor, die Bilder von Tabellen in HTML-Code umwandelt. Das Modell verfügt über einen Strukturdecoder, der die Tabelle rekonstruiert und dem Zellendecoder bei der Erkennung des Zellinhalts hilft. Zudem schlagen wir eine neue Tree-Edit-Distance-basierte Ähnlichkeitsmetrik (TEDS) für die Tabellenerkennung vor, die Fehlanordnungen von mehreren Zellen und OCR-Fehler besser erfasst als die bisherige Metrik. Die Experimente zeigen, dass das EDD-Modell komplexe Tabellen allein anhand der Bildrepräsentation genau erkennen kann und dabei den aktuellen Stand der Technik um 9,7 % absoluten TEDS-Score übertreffen kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp