CascadeTabNet: Ein Ansatz für die vollständige Tabellenerkennung und Strukturanalyse in bildbasierten Dokumenten

Eine automatische Tabellenerkennungsmethode zur Interpretation von tabellarischen Daten in Dokumentbildern beinhaltet hauptsächlich die Lösung zweier Probleme: der Tabellenerkennung und der Strukturerkennung von Tabellen. Frühere Arbeiten lösten beide Probleme unabhängig voneinander mit zwei separaten Ansätzen. Neuere Arbeiten legen den Fokus auf tiefen Lern-basierte Lösungen und versuchen gleichzeitig, eine End-to-End-Lösung zu entwickeln. In dieser Arbeit präsentieren wir einen verbesserten, tiefen Lern-basierten End-to-End-Ansatz zur Lösung der beiden Probleme der Tabellenerkennung und Strukturerkennung mithilfe eines einzigen Modells des Convolutional Neural Networks (CNN). Wir schlagen CascadeTabNet vor: ein Modell basierend auf dem Cascade mask Region-based CNN High-Resolution Network (Cascade mask R-CNN HRNet), das sowohl die Bereiche von Tabellen erkennt als auch die strukturellen Zellenkörper aus den erkannten Tabellen identifiziert. Unsere Ergebnisse wurden anhand der öffentlichen Datensätze ICDAR 2013, ICDAR 2019 und TableBank evaluiert. Wir erreichten den dritten Platz in den Nachwettbewerbsresultaten von ICDAR 2019 für die Tabellenerkennung und erzielten gleichzeitig die besten Genauigkeitswerte für die Datensätze ICDAR 2013 und TableBank. Darüber hinaus erzielen wir die höchste Genauigkeit bei der Strukturerkennung von Tabellen im Datensatz ICDAR 2019. Zusätzlich demonstrieren wir effektive Transferlearning-Techniken und Bildverstärkungsverfahren, die es CNNs ermöglichen, sehr genaue Ergebnisse bei der Tabellenerkennung zu erzielen. Der Quellcode und der Datensatz sind unter folgender URL verfügbar: https://github.com/DevashishPrasad/CascadeTabNet