TSRFormer: Tabellenstrukturerkennung mit Transformers

Wir präsentieren einen neuen Ansatz zur Tabellenstrukturerkennung (TSR), namens TSRFormer, der es ermöglicht, die Strukturen komplexer Tabellen mit geometrischen Verzerrungen aus verschiedenen Tabellenbildern robust zu erkennen. Im Gegensatz zu früheren Methoden formulieren wir die Vorhersage von Trennlinien als ein Linienregressionsproblem anstelle eines Bildsegmentierungsproblems und schlagen einen neuen zweistufigen DETR-basierten Ansatz zur Vorhersage von Trennlinien vor, den wir \textbf{Sep}arator \textbf{RE}gression \textbf{TR}ansformer (SepRETR) nennen. SepRETR dient dazu, Trennlinien direkt aus Tabellenbildern vorherzusagen. Um das zweistufige DETR-Framework effizient und effektiv für die Aufgabe der Trennlinienvorhersage zu machen, schlagen wir zwei Verbesserungen vor: 1) Eine priorverstärkte Zuordnungsmethode, um das Problem der langsamen Konvergenz von DETR zu lösen; 2) Ein neues Kreuzaufmerksamkeitsmodul, das Merkmale direkt aus einer hochauflösenden Faltungsmerkmalskarte abtastet, wodurch eine hohe Lokalisationsgenauigkeit bei geringem Rechenaufwand erreicht wird. Nach der Vorhersage der Trennlinien wird ein einfaches relationales Netzwerk basiertes Zellverschmelzungsmodul verwendet, um zusammengefasste Zellen wiederherzustellen. Mit diesen neuen Techniken erreicht unser TSRFormer Spitzenleistungen auf mehreren Benchmark-Datensätzen, darunter SciTSR, PubTabNet und WTW. Darüber hinaus haben wir die Robustheit unseres Ansatzes gegenüber Tabellen mit komplexen Strukturen, grenzenlosen Zellen, großen leeren Räumen, leeren oder zusammengefassten Zellen sowie verzerrten oder sogar gekrümmten Formen an einem anspruchsvolleren realweltlichen internen Datensatz überprüft.