HyperAIHyperAI

Command Palette

Search for a command to run...

Robuste Tabellenerkennung und Strukturidentifikation in heterogenen Dokumentbildern

Chixiang Ma Weihong Lin Lei Sun Qiang Huo

Zusammenfassung

Wir stellen einen neuen Ansatz zur Tabellenerkennung und Strukturidentifikation vor, der RobusTabNet genannt wird. Dieser Ansatz dient dazu, die Grenzen von Tabellen zu erkennen und die zelluläre Struktur jeder Tabelle aus heterogenen Dokumentbildern wiederherzustellen. Für die Tabellenerkennung schlagen wir vor, CornerNet als neues Region Proposal Network zu verwenden, um höhere Qualität von Tabelle-Vorschlägen für Faster R-CNN zu generieren. Dies hat die Lokalisierungsgenauigkeit von Faster R-CNN bei der Tabellenerkennung erheblich verbessert. Folglich erreicht unser Ansatz zur Tabellenerkennung den aktuellen Stand der Technik auf drei öffentlichen Benchmarks für Tabellenerkennung, nämlich cTDaR TrackA, PubLayNet und IIIT-AR-13K, indem er ausschließlich ein leichtgewichtiges ResNet-18 Backbone-Netzwerk verwendet.Darüber hinaus schlagen wir einen neuen split-and-merge-basierten Ansatz zur Tabellestrukturerkennung vor. In diesem Ansatz wird ein neuartiges räumliches CNN-basiertes Modul zur Vorhersage von Trennlinien vorgeschlagen, um jede erkannte Tabelle in ein Gitter von Zellen zu teilen. Anschließend wird ein Grid-CNN-basiertes Modul zur Zellenzusammenführung angewendet, um die über mehrere Zeilen oder Spalten reichenden Zellen wiederherzustellen. Da das räumliche CNN-Modul kontextuelle Informationen effektiv über das gesamte Bild der Tabelle verbreitet, kann unser Tabellestrukturerkennungsansatz robuste Erkennungen von Tabellen mit großen Leerflächen und geometrisch verzerrten (sogar gekrümmten) Tabellen durchführen.Dank dieser beiden Techniken erreicht unser Ansatz zur Tabellestrukturerkennung den aktuellen Stand der Technik auf drei öffentlichen Benchmarks, einschließlich SciTSR, PubTabNet und cTDaR TrackB2-Modern. Darüber hinaus haben wir die Vorteile unseres Ansatzes bei der Erkennung von Tabellen mit komplexen Strukturen, großen Leerflächen sowie geometrisch verzerrten oder sogar gekrümmten Formen anhand eines anspruchsvolleren internen Datensatzes weiter demonstriert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp