TableNet: Tiefes Lernmodell für die end-to-end Tabellenerkennung und tabellarische Datenextraktion aus gescannten Dokumentbildern

Mit der weit verbreiteten Nutzung von Mobiltelefonen und Scannern zur Fotografierung und Hochladung von Dokumenten wird die Notwendigkeit, Informationen aus unstrukturierten Dokumentbildern wie Einzelhandelsquittungen, Versicherungsansprüchen und Finanzrechnungen zu extrahieren, dringender. Ein wesentlicher Hürde für dieses Ziel ist, dass diese Bilder oft Informationen in Form von Tabellen enthalten, und die Datenextraktion aus tabellarischen Teilbildern eine Reihe einzigartiger Herausforderungen mit sich bringt. Dies beinhaltet die genaue Erkennung des tabellarischen Bereichs innerhalb eines Bildes sowie die anschließende Erkennung und Extraktion von Informationen aus den Zeilen und Spalten der erkannten Tabelle. Obwohl bei der Tabelleerkennung einige Fortschritte gemacht wurden, bleibt die Extraktion des Tabelleninhalts weiterhin eine Herausforderung, da dies eine feingranulare Erkennung der Tabellenstruktur (Zeilen & Spalten) erfordert. Frühere Ansätze haben versucht, das Problem der Tabelleerkennung und Strukturerkennung unabhängig voneinander mit zwei getrennten Modellen zu lösen. In dieser Arbeit schlagen wir TableNet vor: ein neues End-to-End-Tiefenlernmodell sowohl für die Tabelleerkennung als auch für die Strukturerkennung. Das Modell nutzt die Wechselwirkungen zwischen den beiden Aufgaben der Tabelleerkennung und Tabellenstrukturerkennung, um den tabellarischen Bereich und die Spaltenregionen zu segmentieren. Dies wird durch eine semantikbasierte Zeilenerkennung in den identifizierten tabellarischen Teilbereichen gefolgt. Das vorgeschlagene Modell und der Extraktionsansatz wurden auf den öffentlich zugänglichen ICDAR 2013- und Marmot-Tabellendatensätzen evaluiert, wobei Stand-of-the-Art-Ergebnisse erzielt wurden. Zudem zeigen wir, dass das Hinzufügen zusätzlicher semantischer Merkmale die Leistung des Modells weiter verbessert und dass das Modell Transferlearning über verschiedene Datensätze aufweist. Eine weitere Beitragsleistung dieser Arbeit besteht darin, zusätzliche Annotationen zur Tabellenstruktur für die Marmot-Daten bereitzustellen, welche bisher nur Annotationen zur Tabelleerkennung enthielten.