LGPMA: Erkennung komplexer Tabellenstrukturen durch lokale und globale Pyramidenmaske Ausrichtung

Die Erkennung von Tabellenstrukturen ist eine herausfordernde Aufgabe aufgrund der verschiedenen Strukturen und komplexen Zellspannungsbeziehungen. Frühere Methoden haben das Problem durch die Betrachtung von Elementen in unterschiedlichen Granularitäten (Zeilen/Spalten, Textbereiche) angegangen, was jedoch zu Problemen wie fehlerhaften Heuristiken oder der Vernachlässigung der Teilung leerer Zellen geführt hat. Basierend auf den charakteristischen Eigenschaften von Tabellenstrukturen haben wir festgestellt, dass die Gewinnung ausgerichteter Begrenzungsrahmen (Bounding Boxes) für Textbereiche die gesamte relevante Reichweite verschiedener Zellen effektiv beibehalten kann. Allerdings sind diese ausgerichteten Begrenzungsrahmen aufgrund visueller Ambiguitäten schwer genaue vorherzusagen. In dieser Arbeit streben wir an, verlässlichere ausgerichtete Begrenzungsrahmen durch vollständige Nutzung der visuellen Informationen sowohl aus den vorgeschlagenen lokalen Merkmalen als auch aus den globalen Beziehungen zwischen Zellen zu erzielen. Insbesondere schlagen wir das Framework „Lokale und Globale Pyramidenmaskenausrichtung“ (Local and Global Pyramid Mask Alignment) vor, das den Mechanismus des weichen Pyramidenmaskenlernens sowohl in den lokalen als auch in den globalen Merkmalskarten einsetzt. Dies ermöglicht es, die vorhergesagten Grenzen der Begrenzungsrahmen über die Beschränkungen der ursprünglichen Vorschläge hinauszutragen. Anschließend wird ein Modul zur Pyramidenmasken-Wiederbewertung integriert, um lokale und globale Informationen zu vereinen und die vorhergesagten Grenzen zu verfeinern. Schließlich schlagen wir einen robusten Pipeline zur Wiederherstellung von Tabellenstrukturen vor, mit dem wir auch die Probleme der Lokalisierung und Teilung leerer Zellen effektiv lösen. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Verfahren wettbewerbsfähige und sogar neue Standarte-der-Technik-Leistungen (state-of-the-art performance) auf mehreren öffentlichen Benchmarks erzielt.