HyperAIHyperAI

Command Palette

Search for a command to run...

TRUST: Ein genauer und end-to-end Tabellenstruktur-Erkennungsalgorithmus unter Verwendung von splitting-basierten Transformatoren

Zengyuan Guo Yuechen Yu Pengyuan Lv Chengquan Zhang Haojie Li Zhihui Wang Kun Yao Jingtuo Liu Jingdong Wang

Zusammenfassung

Die Erkennung von Tabellenstrukturen ist ein wesentlicher Bestandteil des Bereichs der Dokumentbildanalyse. Ihre Schwierigkeit liegt darin, die physischen Koordinaten und logischen Indizes jeder Zelle gleichzeitig zu analysieren. Die bestehenden Methoden haben jedoch Schwierigkeiten, beide Ziele zu erreichen, insbesondere wenn die Trennlinien der Tabelle verschwommen oder schräg sind. In dieser Arbeit schlagen wir eine präzise und end-to-end Methode zur Tabellenstrukturerkennung vor, die auf Transformatoren basiert und als TRUST bezeichnet wird. Transformatoren eignen sich für die Tabellenstrukturerkennung aufgrund ihrer globalen Berechnungen, perfekten Speicherfähigkeit und parallelen Berechnungen. Durch die Einführung eines neuartigen transformerbasierten Abfrage-basierten Aufteilungsmoduls (Query-based Splitting Module) und eines knotenbasierten Zusammenführungsmoduls (Vertex-based Merging Module) wird das Problem der Tabellenstrukturerkennung in zwei verbundene Optimierungsaufgaben entkoppelt: die Aufteilung von tabellarischen Zeilen/Spalten in beliebiger Ausrichtung und das Zusammenführen des Tabellengitters. Das Abfrage-basierte Aufteilungsmodul lernt starke Kontextinformationen aus langen Abhängigkeiten durch Transformer-Netze, erkennt die multi-orientierten Trennzeilen von Zeilen/Spalten präzise und erhält entsprechend die grundlegenden Gitter der Tabelle. Das knotenbasierte Zusammenführungsmodul ist in der Lage, lokale Kontextinformationen zwischen benachbarten grundlegenden Gittern zu aggregieren und bietet somit die Möglichkeit, grundlegende Gitter, die demselben zusammengeführten Feld gehören, genau zusammenzuführen. Wir führen Experimente auf mehreren gängigen Benchmarks durch, darunter PubTabNet und SynthTable, wobei unsere Methode neue Stand-of-the-Art-Ergebnisse erzielt. Insbesondere läuft TRUST bei 10 FPS auf PubTabNet und übertreffen dabei die bisherigen Methoden um einen großen Vorsprung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp