vor 6 Monaten

Zusammenfassung

Wir stellen einen neuartigen Ansatz zur Darstellung gescannter Dokumente vor, um die Extraktion von Feldern zu ermöglichen. Er erlaubt die gleichzeitige Kodierung von Text-, Visuellen- und Layout-Informationen in einem dreidimensionalen Tensor, der als Eingabe für ein Segmentierungsmodell dient. Wir verbessern die jüngsten Chargrid- und Wordgrid-Modelle \cite{chargrid} auf mehreren Ebenen: Zunächst berücksichtigen wir die visuelle Modalität, anschließend steigern wir die Robustheit gegenüber kleinen Datensätzen, ohne die Inferenzzeit signifikant zu erhöhen. Unser Ansatz wird an öffentlichen und privaten Dokumentenbild-Datensätzen getestet und zeigt gegenüber den neuesten state-of-the-art-Methoden eine höhere Leistungsfähigkeit.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Dokumentenverstehen

Multimodal

Multimodale Darstellung

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Mohamed Kerroumi Othmane Sayem Aymen Shabou

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Dokumentenverstehen

Multimodal

Multimodale Darstellung

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Mohamed Kerroumi Othmane Sayem Aymen Shabou

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VisualWordGrid: Informationsextraktion aus gescannten Dokumenten mittels eines multimodalen Ansatzes

Mohamed Kerroumi Othmane Sayem Aymen Shabou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VisualWordGrid: Informationsextraktion aus gescannten Dokumenten mittels eines multimodalen Ansatzes

Mohamed Kerroumi Othmane Sayem Aymen Shabou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VisualWordGrid: Informationsextraktion aus gescannten Dokumenten mittels eines multimodalen Ansatzes

Mohamed Kerroumi Othmane Sayem Aymen Shabou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters