Command Palette
Search for a command to run...
CDeC-Net: Composite Deformable Cascade Network für die Tabellenerkennung in Dokumentbildern
CDeC-Net: Composite Deformable Cascade Network für die Tabellenerkennung in Dokumentbildern
Madhav Agarwal Ajoy Mondal C. V. Jawahar
Zusammenfassung
Die Lokalisierung von Seitenelementen oder -objekten wie Tabellen, Abbildungen, Gleichungen usw. stellt den zentralen ersten Schritt bei der Informationsextraktion aus Dokumentbildern dar. Wir schlagen ein neuartiges, end-to-end trainierbares tiefes Netzwerk (CDeC-Net) zur Erkennung von Tabellen in Dokumenten vor. Das vorgeschlagene Netzwerk basiert auf einer mehrstufigen Erweiterung von Mask R-CNN mit einem dualen Backbone, das deformierbare Konvolutionen verwendet, um Tabellen unterschiedlicher Skalierung mit hoher Erkennungsgenauigkeit bei höheren IoU-Schwellenwerten zu detektieren. Wir evaluieren CDeC-Net empirisch an allen öffentlich verfügbaren Benchmark-Datensätzen – ICDAR-2013, ICDAR-2017, ICDAR-2019, UNLV, Marmot, PubLayNet und TableBank – anhand umfangreicher Experimente.Unsere Lösung weist drei wesentliche Eigenschaften auf: (i) ein einziger, vortrainiertes Modell (CDeC-Net‡) erzielt hervorragende Ergebnisse auf allen gängigen Benchmark-Datensätzen; (ii) wir berichten über exzellente Leistungen bei mehreren, einschließlich höheren, IoU-Schwellenwerten; (iii) indem wir das gleiche Evaluationsprotokoll wie die jüngsten Arbeiten für jeden einzelnen Benchmark befolgen, zeigen wir konsistent überlegene quantitative Ergebnisse. Unsere Code-Implementierung und die Modelle werden öffentlich verfügbar gemacht, um die Reproduzierbarkeit unserer Ergebnisse zu gewährleisten.