vor 2 Monaten

Mehrzelliger Decoder und gegenseitiges Lernen für die Tabellenstruktur- und Zeichenerkennung

Takaya Kawakatsu

Abstract

Die Extraktion von Tabelleninhalten aus Dokumenten wie wissenschaftlichen Artikeln und Finanzberichten und deren Umwandlung in ein Format, das von großen Sprachmodellen verarbeitet werden kann, ist eine wichtige Aufgabe im Bereich der Wissensinformationsverarbeitung. End-to-End-Ansätze, die nicht nur die Tabellenstruktur, sondern auch den Inhalt der Zellen erkennen, erreichten Leistungen, die mit den besten Modellen vergleichbar sind, die externe Zeichenerkennungssysteme verwenden. Diese Ansätze bieten zudem Potenzial für weitere Verbesserungen. Durch die Einführung lokaler Aufmerksamkeit können diese Modelle nun lange Tabellen mit Hunderten von Zellen erkennen. Allerdings erfolgt die Erkennung der Tabellenstruktur in einer Richtung vom Kopfzeilenbereich zum Fußzeilenbereich, und die Erkennung des Zellinhalts wird unabhängig für jede Zelle durchgeführt. Somit besteht keine Möglichkeit, nützliche Informationen aus benachbarten Zellen zu extrahieren. In dieser Arbeit schlagen wir einen Mehrzellen-Inhaltsdecoder und einen bidirektionalen gegenseitigen Lernmechanismus vor, um den End-to-End-Ansatz zu verbessern. Die Effektivität wird anhand zweier großer Datensätze demonstriert, und die experimentellen Ergebnisse zeigen vergleichbare Leistungen mit den besten aktuellen Modellen, auch bei langen Tabellen mit einer großen Anzahl von Zellen.