HyperAIHyperAI
vor 11 Tagen

VisualWordGrid: Informationsextraktion aus gescannten Dokumenten mittels eines multimodalen Ansatzes

Mohamed Kerroumi, Othmane Sayem, Aymen Shabou
VisualWordGrid: Informationsextraktion aus gescannten Dokumenten mittels eines multimodalen Ansatzes
Abstract

Wir stellen einen neuartigen Ansatz zur Darstellung gescannter Dokumente vor, um die Extraktion von Feldern zu ermöglichen. Er erlaubt die gleichzeitige Kodierung von Text-, Visuellen- und Layout-Informationen in einem dreidimensionalen Tensor, der als Eingabe für ein Segmentierungsmodell dient. Wir verbessern die jüngsten Chargrid- und Wordgrid-Modelle \cite{chargrid} auf mehreren Ebenen: Zunächst berücksichtigen wir die visuelle Modalität, anschließend steigern wir die Robustheit gegenüber kleinen Datensätzen, ohne die Inferenzzeit signifikant zu erhöhen. Unser Ansatz wird an öffentlichen und privaten Dokumentenbild-Datensätzen getestet und zeigt gegenüber den neuesten state-of-the-art-Methoden eine höhere Leistungsfähigkeit.

VisualWordGrid: Informationsextraktion aus gescannten Dokumenten mittels eines multimodalen Ansatzes | Neueste Forschungsarbeiten | HyperAI