HyperAIHyperAI
vor 2 Monaten

Aufspalten, einbetten und zusammenführen: Ein genauer Tabellenstruktur-Erkennungsalgorithmus

Zhenrong Zhang; Jianshu Zhang; Jun Du
Aufspalten, einbetten und zusammenführen: Ein genauer Tabellenstruktur-Erkennungsalgorithmus
Abstract

Die Erkennung von Tabellenstrukturen ist ein wesentlicher Bestandteil, um Maschinen das Verstehen von Tabellen zu ermöglichen. Ihre Hauptaufgabe besteht darin, die interne Struktur einer Tabelle zu erkennen. Aufgrund der Komplexität und Vielfalt in ihrer Struktur und Gestaltung ist es jedoch sehr schwierig, die tabellarischen Daten in ein strukturiertes Format zu parsen, das Maschinen leicht verstehen können, insbesondere bei komplexen Tabellen. In dieser Arbeit stellen wir Split, Embed and Merge (SEM) vor, einen präzisen Tabellenstrukturerkennungsansatz. Unser Modell nimmt Tabellenbilder als Eingabe entgegen und kann die Struktur von Tabellen korrekt erkennen, sei es einfache oder komplexe Tabellen. SEM besteht hauptsächlich aus drei Komponenten: Splitter, Embedder und Merger.Im ersten Stadium wenden wir den Splitter an, um die potentiellen Bereiche der Zeilen- (Spalten-) Trennzeichen der Tabelle vorherzusagen und so die feine Gitterstruktur der Tabelle zu erhalten. Im zweiten Stadium berücksichtigen wir die textuellen Informationen in der Tabelle vollständig und fusionieren die Ausgabe-Features für jedes Tabellengitter sowohl aus visueller als auch aus sprachlicher Perspektive. Darüber hinaus erreichen wir eine höhere Genauigkeit in unseren Experimenten durch das Hinzufügen zusätzlicher semantischer Features. Schließlich verarbeiten wir das Zusammenführen dieser grundlegenden Tabellengitter auf selbstregressiver Basis. Die entsprechenden Zusammenführungsresultate werden durch den Aufmerksamkeitsmechanismus gelernt.In unseren Experimenten erreicht SEM einen durchschnittlichen F1-Wert von 97,11 % im SciTSR-Datensatz, was deutlich besser ist als andere Methoden. Wir belegten auch den ersten Platz bei komplexen Tabellen und den dritten Platz bei allen Tabellen im ICDAR 2021 Wettbewerb zur Analyse wissenschaftlicher Literatur, Task B. Umfangreiche Experimente mit anderen öffentlich zugänglichen Datensätzen zeigen, dass unser Modell den aktuellen Stand der Technik erreicht.

Aufspalten, einbetten und zusammenführen: Ein genauer Tabellenstruktur-Erkennungsalgorithmus | Neueste Forschungsarbeiten | HyperAI