HyperAIHyperAI
vor 2 Monaten

Ein End-to-End Mehrfach-Aufgaben-Lernmodell für bildbasierte Tabellenerkennung

Nam Tuan Ly; Atsuhiro Takasu
Ein End-to-End Mehrfach-Aufgaben-Lernmodell für bildbasierte Tabellenerkennung
Abstract

Die bildbasierte Tabellenerkennung ist eine herausfordernde Aufgabe aufgrund der Vielfalt an Tabellenstilen und der Komplexität von Tabellenstrukturen. Die meisten bisherigen Methoden konzentrieren sich auf einen nicht end-to-end Ansatz, bei dem das Problem in zwei getrennte Teilprobleme unterteilt wird: die Erkennung der Tabellenstruktur und die Erkennung des Zellinhalts, wobei versucht wird, jedes Teilproblem unabhängig voneinander mit zwei separaten Systemen zu lösen. In dieser Arbeit schlagen wir ein end-to-end Mehraufgaben-Lernmodell für die bildbasierte Tabellenerkennung vor. Das vorgeschlagene Modell besteht aus einem gemeinsamen Encoder, einem gemeinsamen Decoder und drei separaten Decodern, die zur Lernung der drei Teilprobleme der Tabellenerkennung verwendet werden: Erkennung der Tabellenstruktur, Zellenerkennung und Erkennung des Zellinhalts. Das gesamte System kann leicht in einem end-to-end Ansatz trainiert und inferiert werden. In den Experimenten bewerten wir die Leistung des vorgeschlagenen Modells anhand zweier umfangreicher Datensätze: FinTabNet und PubTabNet. Die Ergebnisse der Experimente zeigen, dass das vorgeschlagene Modell in allen Benchmark-Datensätzen den aktuellen Stand der Technik übertrifft.

Ein End-to-End Mehrfach-Aufgaben-Lernmodell für bildbasierte Tabellenerkennung | Neueste Forschungsarbeiten | HyperAI