HyperAIHyperAI
vor 2 Monaten

Bildbasierte Tabellenerkennung: Daten, Modell und Evaluation

Xu Zhong; Elaheh ShafieiBavani; Antonio Jimeno Yepes
Bildbasierte Tabellenerkennung: Daten, Modell und Evaluation
Abstract

Wichtige Informationen, die sich auf ein bestimmtes Thema in einem Dokument beziehen, werden oft in tabellarischer Form organisiert, um den Lesern bei der Informationsrecherche und -vergleich zu helfen, was in natürlicher Sprache schwierig sein könnte. Tabellarische Daten in unstrukturierten digitalen Dokumenten, wie z.B. im Portable Document Format (PDF) und Bildern, sind jedoch aufgrund ihrer Komplexität und Vielfalt in Struktur und Stil schwer zu analysieren und in ein strukturiertes maschinenlesbares Format umzuwandeln. Um die bildbasierte Tabellenerkennung mit tiefem Lernen zu erleichtern, haben wir den größten öffentlich verfügbaren Datensatz für Tabellenerkennung namens PubTabNet (https://github.com/ibm-aur-nlp/PubTabNet) entwickelt. Dieser enthält 568.000 Tabellenbilder mit entsprechender strukturierter HTML-Darstellung. PubTabNet wird automatisch generiert, indem die XML- und PDF-Darstellungen der wissenschaftlichen Artikel im PubMed Central Open Access Subset (PMCOA) abgeglichen werden. Darüber hinaus schlagen wir eine neuartige aufmerksamkeitsbasierte Encoder-Dual-Decoder (EDD)-Architektur vor, die Bilder von Tabellen in HTML-Code umwandelt. Das Modell verfügt über einen Strukturdecoder, der die Tabelle rekonstruiert und dem Zellendecoder bei der Erkennung des Zellinhalts hilft. Zudem schlagen wir eine neue Tree-Edit-Distance-basierte Ähnlichkeitsmetrik (TEDS) für die Tabellenerkennung vor, die Fehlanordnungen von mehreren Zellen und OCR-Fehler besser erfasst als die bisherige Metrik. Die Experimente zeigen, dass das EDD-Modell komplexe Tabellen allein anhand der Bildrepräsentation genau erkennen kann und dabei den aktuellen Stand der Technik um 9,7 % absoluten TEDS-Score übertreffen kann.

Bildbasierte Tabellenerkennung: Daten, Modell und Evaluation | Neueste Forschungsarbeiten | HyperAI