HyperAIHyperAI

Command Palette

Search for a command to run...

LGPMA: Erkennung komplexer Tabellenstrukturen durch lokale und globale Pyramidenmaske Ausrichtung

Liang Qiao Zaisheng Li Zhanzhan Cheng Peng Zhang Shiliang Pu Yi Niu Wengqi Ren Wenming Tan Fei Wu

Zusammenfassung

Die Erkennung von Tabellenstrukturen ist eine herausfordernde Aufgabe aufgrund der verschiedenen Strukturen und komplexen Zellspannungsbeziehungen. Frühere Methoden haben das Problem durch die Betrachtung von Elementen in unterschiedlichen Granularitäten (Zeilen/Spalten, Textbereiche) angegangen, was jedoch zu Problemen wie fehlerhaften Heuristiken oder der Vernachlässigung der Teilung leerer Zellen geführt hat. Basierend auf den charakteristischen Eigenschaften von Tabellenstrukturen haben wir festgestellt, dass die Gewinnung ausgerichteter Begrenzungsrahmen (Bounding Boxes) für Textbereiche die gesamte relevante Reichweite verschiedener Zellen effektiv beibehalten kann. Allerdings sind diese ausgerichteten Begrenzungsrahmen aufgrund visueller Ambiguitäten schwer genaue vorherzusagen. In dieser Arbeit streben wir an, verlässlichere ausgerichtete Begrenzungsrahmen durch vollständige Nutzung der visuellen Informationen sowohl aus den vorgeschlagenen lokalen Merkmalen als auch aus den globalen Beziehungen zwischen Zellen zu erzielen. Insbesondere schlagen wir das Framework „Lokale und Globale Pyramidenmaskenausrichtung“ (Local and Global Pyramid Mask Alignment) vor, das den Mechanismus des weichen Pyramidenmaskenlernens sowohl in den lokalen als auch in den globalen Merkmalskarten einsetzt. Dies ermöglicht es, die vorhergesagten Grenzen der Begrenzungsrahmen über die Beschränkungen der ursprünglichen Vorschläge hinauszutragen. Anschließend wird ein Modul zur Pyramidenmasken-Wiederbewertung integriert, um lokale und globale Informationen zu vereinen und die vorhergesagten Grenzen zu verfeinern. Schließlich schlagen wir einen robusten Pipeline zur Wiederherstellung von Tabellenstrukturen vor, mit dem wir auch die Probleme der Lokalisierung und Teilung leerer Zellen effektiv lösen. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Verfahren wettbewerbsfähige und sogar neue Standarte-der-Technik-Leistungen (state-of-the-art performance) auf mehreren öffentlichen Benchmarks erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LGPMA: Erkennung komplexer Tabellenstrukturen durch lokale und globale Pyramidenmaske Ausrichtung | Paper | HyperAI