HyperAIHyperAI

Command Palette

Search for a command to run...

Ein LayoutLMv3-basieretes Modell zur verbesserten Relationsextraktion in visuell reichen Dokumenten

Wiam Adnan Joel Tang Yassine Bel Khayat Zouggari Seif Edinne Laatiri Laurent Lam Fabien Caspani

Zusammenfassung

Das Verständnis von Dokumenten ist ein sich entwickelendes Gebiet im Bereich der Natürlichen Sprachverarbeitung (NLP). Insbesondere sind visuelle und räumliche Merkmale neben dem reinen Text selbst essentiell, weshalb mehrere multimodale Modelle im Bereich der Visuellen Dokumentenverarbeitung (VDU) entwickelt wurden. Allerdings konzentriert sich die Forschung hauptsächlich auf die Extraktion von Schlüsselinformationen (KIE), während die Beziehungsanalyse (RE) zwischen identifizierten Entitäten noch unterrepräsentiert ist. Zum Beispiel ist RE entscheidend, um Entitäten zusammenzufassen oder eine umfassende Hierarchie der Daten in einem Dokument zu erhalten. In dieser Arbeit stellen wir ein Modell vor, das auf LayoutLMv3 basiert und ohne spezifische Vortraining und mit weniger Parametern die aktuellen Stand-der-Technik-Ergebnisse in RE für visuell reichhaltige Dokumente (VRD) auf den Datensätzen FUNSD und CORD erreichen oder übertreffen kann. Wir führen zudem eine umfangreiche Abstraktionsstudie auf dem FUNSD-Datensatz durch, die den erheblichen Einfluss bestimmter Merkmale und Modellierungsentscheidungen auf die Leistung hervorhebt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp