HyperAIHyperAI
vor 2 Monaten

Hochleistungs-Transformers für die Tabellenstrukturerkennung benötigen frühe Faltungen

ShengYun Peng; Seongmin Lee; Xiaojing Wang; Rajarajeswari Balasubramaniyan; Duen Horng Chau
Hochleistungs-Transformers für die Tabellenstrukturerkennung benötigen frühe Faltungen
Abstract

Die Tabellenstrukturerkennung (TSR) hat das Ziel, tabellarische Bilder in ein maschinenlesbares Format zu konvertieren, wobei ein visueller Encoder Bildmerkmale extrahiert und ein textbasierter Decoder tabellenrepräsentierende Token generiert. Bestehende Ansätze verwenden klassische konvolutive Neuronale Netze (CNN) als Backbone für den visuellen Encoder und Transformer für den textuellen Decoder. Diese hybride CNN-Transformer-Architektur führt jedoch zu einem komplexen visuellen Encoder, der fast die Hälfte der Gesamtmodellparameter ausmacht, was sowohl die Trainings- als auch die Inferenzgeschwindigkeit erheblich reduziert und das Potenzial für selbstüberwachtes Lernen in der TSR einschränkt. In dieser Arbeit entwickeln wir einen leichten visuellen Encoder für die TSR, ohne dabei auf Ausdrucksstärke zu verzichten. Wir stellen fest, dass ein konvolutiver Stamm (Stem) die Leistung von klassischen CNN-Backbones erreichen kann, mit einem viel einfacheren Modell. Der konvolutive Stamm findet eine optimale Balance zwischen zwei entscheidenden Faktoren für eine hochleistungsfähige TSR: einem höheren Rezeptivfeldverhältnis (Receptive Field Ratio, RF-Ratio) und einer längeren Sequenzlänge. Dies ermöglicht es ihm, einen angemessenen Teil der Tabelle "zu sehen" und die komplexe Tabellenstruktur innerhalb einer ausreichenden Kontextlänge für den nachfolgenden Transformer "zu speichern". Wir haben reproduzierbare Abstraktionsstudien durchgeführt und unseren Code unter https://github.com/poloclub/tsr-convstem offen zur Verfügung gestellt, um Transparenz zu erhöhen, Innovationen anzuregen und faire Vergleiche in unserem Bereich zu erleichtern, da Tabellen eine vielversprechende Modalität für Darstellungslernen sind.

Hochleistungs-Transformers für die Tabellenstrukturerkennung benötigen frühe Faltungen | Neueste Forschungsarbeiten | HyperAI