HyperAIHyperAI

Command Palette

Search for a command to run...

Hochleistungs-Transformers für die Tabellenstrukturerkennung benötigen frühe Faltungen

ShengYun Peng¹ Seongmin Lee¹ Xiaojing Wang² Rajarajeswari Balasubramaniyan² Duen Horng Chau¹

Zusammenfassung

Die Tabellenstrukturerkennung (TSR) hat das Ziel, tabellarische Bilder in ein maschinenlesbares Format zu konvertieren, wobei ein visueller Encoder Bildmerkmale extrahiert und ein textbasierter Decoder tabellenrepräsentierende Token generiert. Bestehende Ansätze verwenden klassische konvolutive Neuronale Netze (CNN) als Backbone für den visuellen Encoder und Transformer für den textuellen Decoder. Diese hybride CNN-Transformer-Architektur führt jedoch zu einem komplexen visuellen Encoder, der fast die Hälfte der Gesamtmodellparameter ausmacht, was sowohl die Trainings- als auch die Inferenzgeschwindigkeit erheblich reduziert und das Potenzial für selbstüberwachtes Lernen in der TSR einschränkt. In dieser Arbeit entwickeln wir einen leichten visuellen Encoder für die TSR, ohne dabei auf Ausdrucksstärke zu verzichten. Wir stellen fest, dass ein konvolutiver Stamm (Stem) die Leistung von klassischen CNN-Backbones erreichen kann, mit einem viel einfacheren Modell. Der konvolutive Stamm findet eine optimale Balance zwischen zwei entscheidenden Faktoren für eine hochleistungsfähige TSR: einem höheren Rezeptivfeldverhältnis (Receptive Field Ratio, RF-Ratio) und einer längeren Sequenzlänge. Dies ermöglicht es ihm, einen angemessenen Teil der Tabelle "zu sehen" und die komplexe Tabellenstruktur innerhalb einer ausreichenden Kontextlänge für den nachfolgenden Transformer "zu speichern". Wir haben reproduzierbare Abstraktionsstudien durchgeführt und unseren Code unter https://github.com/poloclub/tsr-convstem offen zur Verfügung gestellt, um Transparenz zu erhöhen, Innovationen anzuregen und faire Vergleiche in unserem Bereich zu erleichtern, da Tabellen eine vielversprechende Modalität für Darstellungslernen sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp