HyperAIHyperAI

Command Palette

Search for a command to run...

Ein End-to-End Mehrfach-Aufgaben-Lernmodell für bildbasierte Tabellenerkennung

Nam Tuan Ly Atsuhiro Takasu

Zusammenfassung

Die bildbasierte Tabellenerkennung ist eine herausfordernde Aufgabe aufgrund der Vielfalt an Tabellenstilen und der Komplexität von Tabellenstrukturen. Die meisten bisherigen Methoden konzentrieren sich auf einen nicht end-to-end Ansatz, bei dem das Problem in zwei getrennte Teilprobleme unterteilt wird: die Erkennung der Tabellenstruktur und die Erkennung des Zellinhalts, wobei versucht wird, jedes Teilproblem unabhängig voneinander mit zwei separaten Systemen zu lösen. In dieser Arbeit schlagen wir ein end-to-end Mehraufgaben-Lernmodell für die bildbasierte Tabellenerkennung vor. Das vorgeschlagene Modell besteht aus einem gemeinsamen Encoder, einem gemeinsamen Decoder und drei separaten Decodern, die zur Lernung der drei Teilprobleme der Tabellenerkennung verwendet werden: Erkennung der Tabellenstruktur, Zellenerkennung und Erkennung des Zellinhalts. Das gesamte System kann leicht in einem end-to-end Ansatz trainiert und inferiert werden. In den Experimenten bewerten wir die Leistung des vorgeschlagenen Modells anhand zweier umfangreicher Datensätze: FinTabNet und PubTabNet. Die Ergebnisse der Experimente zeigen, dass das vorgeschlagene Modell in allen Benchmark-Datensätzen den aktuellen Stand der Technik übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein End-to-End Mehrfach-Aufgaben-Lernmodell für bildbasierte Tabellenerkennung | Paper | HyperAI