HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrzelliger Decoder und gegenseitiges Lernen für die Tabellenstruktur- und Zeichenerkennung

Takaya Kawakatsu

Zusammenfassung

Die Extraktion von Tabelleninhalten aus Dokumenten wie wissenschaftlichen Artikeln und Finanzberichten und deren Umwandlung in ein Format, das von großen Sprachmodellen verarbeitet werden kann, ist eine wichtige Aufgabe im Bereich der Wissensinformationsverarbeitung. End-to-End-Ansätze, die nicht nur die Tabellenstruktur, sondern auch den Inhalt der Zellen erkennen, erreichten Leistungen, die mit den besten Modellen vergleichbar sind, die externe Zeichenerkennungssysteme verwenden. Diese Ansätze bieten zudem Potenzial für weitere Verbesserungen. Durch die Einführung lokaler Aufmerksamkeit können diese Modelle nun lange Tabellen mit Hunderten von Zellen erkennen. Allerdings erfolgt die Erkennung der Tabellenstruktur in einer Richtung vom Kopfzeilenbereich zum Fußzeilenbereich, und die Erkennung des Zellinhalts wird unabhängig für jede Zelle durchgeführt. Somit besteht keine Möglichkeit, nützliche Informationen aus benachbarten Zellen zu extrahieren. In dieser Arbeit schlagen wir einen Mehrzellen-Inhaltsdecoder und einen bidirektionalen gegenseitigen Lernmechanismus vor, um den End-to-End-Ansatz zu verbessern. Die Effektivität wird anhand zweier großer Datensätze demonstriert, und die experimentellen Ergebnisse zeigen vergleichbare Leistungen mit den besten aktuellen Modellen, auch bei langen Tabellen mit einer großen Anzahl von Zellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp