Robuste Tabellenerkennung und Strukturidentifikation in heterogenen Dokumentbildern

Wir stellen einen neuen Ansatz zur Tabellenerkennung und Strukturidentifikation vor, der RobusTabNet genannt wird. Dieser Ansatz dient dazu, die Grenzen von Tabellen zu erkennen und die zelluläre Struktur jeder Tabelle aus heterogenen Dokumentbildern wiederherzustellen. Für die Tabellenerkennung schlagen wir vor, CornerNet als neues Region Proposal Network zu verwenden, um höhere Qualität von Tabelle-Vorschlägen für Faster R-CNN zu generieren. Dies hat die Lokalisierungsgenauigkeit von Faster R-CNN bei der Tabellenerkennung erheblich verbessert. Folglich erreicht unser Ansatz zur Tabellenerkennung den aktuellen Stand der Technik auf drei öffentlichen Benchmarks für Tabellenerkennung, nämlich cTDaR TrackA, PubLayNet und IIIT-AR-13K, indem er ausschließlich ein leichtgewichtiges ResNet-18 Backbone-Netzwerk verwendet.Darüber hinaus schlagen wir einen neuen split-and-merge-basierten Ansatz zur Tabellestrukturerkennung vor. In diesem Ansatz wird ein neuartiges räumliches CNN-basiertes Modul zur Vorhersage von Trennlinien vorgeschlagen, um jede erkannte Tabelle in ein Gitter von Zellen zu teilen. Anschließend wird ein Grid-CNN-basiertes Modul zur Zellenzusammenführung angewendet, um die über mehrere Zeilen oder Spalten reichenden Zellen wiederherzustellen. Da das räumliche CNN-Modul kontextuelle Informationen effektiv über das gesamte Bild der Tabelle verbreitet, kann unser Tabellestrukturerkennungsansatz robuste Erkennungen von Tabellen mit großen Leerflächen und geometrisch verzerrten (sogar gekrümmten) Tabellen durchführen.Dank dieser beiden Techniken erreicht unser Ansatz zur Tabellestrukturerkennung den aktuellen Stand der Technik auf drei öffentlichen Benchmarks, einschließlich SciTSR, PubTabNet und cTDaR TrackB2-Modern. Darüber hinaus haben wir die Vorteile unseres Ansatzes bei der Erkennung von Tabellen mit komplexen Strukturen, großen Leerflächen sowie geometrisch verzerrten oder sogar gekrümmten Formen anhand eines anspruchsvolleren internen Datensatzes weiter demonstriert.