TRUST: Ein genauer und end-to-end Tabellenstruktur-Erkennungsalgorithmus unter Verwendung von splitting-basierten Transformatoren

Die Erkennung von Tabellenstrukturen ist ein wesentlicher Bestandteil des Bereichs der Dokumentbildanalyse. Ihre Schwierigkeit liegt darin, die physischen Koordinaten und logischen Indizes jeder Zelle gleichzeitig zu analysieren. Die bestehenden Methoden haben jedoch Schwierigkeiten, beide Ziele zu erreichen, insbesondere wenn die Trennlinien der Tabelle verschwommen oder schräg sind. In dieser Arbeit schlagen wir eine präzise und end-to-end Methode zur Tabellenstrukturerkennung vor, die auf Transformatoren basiert und als TRUST bezeichnet wird. Transformatoren eignen sich für die Tabellenstrukturerkennung aufgrund ihrer globalen Berechnungen, perfekten Speicherfähigkeit und parallelen Berechnungen. Durch die Einführung eines neuartigen transformerbasierten Abfrage-basierten Aufteilungsmoduls (Query-based Splitting Module) und eines knotenbasierten Zusammenführungsmoduls (Vertex-based Merging Module) wird das Problem der Tabellenstrukturerkennung in zwei verbundene Optimierungsaufgaben entkoppelt: die Aufteilung von tabellarischen Zeilen/Spalten in beliebiger Ausrichtung und das Zusammenführen des Tabellengitters. Das Abfrage-basierte Aufteilungsmodul lernt starke Kontextinformationen aus langen Abhängigkeiten durch Transformer-Netze, erkennt die multi-orientierten Trennzeilen von Zeilen/Spalten präzise und erhält entsprechend die grundlegenden Gitter der Tabelle. Das knotenbasierte Zusammenführungsmodul ist in der Lage, lokale Kontextinformationen zwischen benachbarten grundlegenden Gittern zu aggregieren und bietet somit die Möglichkeit, grundlegende Gitter, die demselben zusammengeführten Feld gehören, genau zusammenzuführen. Wir führen Experimente auf mehreren gängigen Benchmarks durch, darunter PubTabNet und SynthTable, wobei unsere Methode neue Stand-of-the-Art-Ergebnisse erzielt. Insbesondere läuft TRUST bei 10 FPS auf PubTabNet und übertreffen dabei die bisherigen Methoden um einen großen Vorsprung.