Ein LayoutLMv3-basieretes Modell zur verbesserten Relationsextraktion in visuell reichen Dokumenten

Das Verständnis von Dokumenten ist ein sich entwickelendes Gebiet im Bereich der Natürlichen Sprachverarbeitung (NLP). Insbesondere sind visuelle und räumliche Merkmale neben dem reinen Text selbst essentiell, weshalb mehrere multimodale Modelle im Bereich der Visuellen Dokumentenverarbeitung (VDU) entwickelt wurden. Allerdings konzentriert sich die Forschung hauptsächlich auf die Extraktion von Schlüsselinformationen (KIE), während die Beziehungsanalyse (RE) zwischen identifizierten Entitäten noch unterrepräsentiert ist. Zum Beispiel ist RE entscheidend, um Entitäten zusammenzufassen oder eine umfassende Hierarchie der Daten in einem Dokument zu erhalten. In dieser Arbeit stellen wir ein Modell vor, das auf LayoutLMv3 basiert und ohne spezifische Vortraining und mit weniger Parametern die aktuellen Stand-der-Technik-Ergebnisse in RE für visuell reichhaltige Dokumente (VRD) auf den Datensätzen FUNSD und CORD erreichen oder übertreffen kann. Wir führen zudem eine umfangreiche Abstraktionsstudie auf dem FUNSD-Datensatz durch, die den erheblichen Einfluss bestimmter Merkmale und Modellierungsentscheidungen auf die Leistung hervorhebt.