Entitätsrelationsextraktion als Abhängigkeitsanalyse in visuell reichen Dokumenten

Bisherige Arbeiten zur Extraktion Schlüsselinformationen aus visuell reichen Dokumenten (Visually Rich Documents, VRDs) konzentrieren sich hauptsächlich auf die Beschriftung des Textes innerhalb jedes Bounding Boxes (d. h. semantischer Entitäten), während die zwischen den Entitäten bestehenden Beziehungen weitgehend unerforscht bleiben. In diesem Paper adaptieren wir den populären Abhängigkeitsanalyse-Modell, den Biaffinen Parser, für die Aufgabe der Entitäts-Beziehungs-Extraktion. Im Gegensatz zum ursprünglichen Abhängigkeitsanalyse-Modell, das Abhängigkeitsbeziehungen zwischen einzelnen Wörtern erkennt, identifizieren wir nun Beziehungen zwischen Wortgruppen unter Verwendung von Layout-Informationen. Wir haben verschiedene Darstellungsformen semantischer Entitäten, verschiedene VRD-Encoder und verschiedene Relation-Decoder verglichen. Die Ergebnisse zeigen, dass unser vorgeschlagener Modell auf dem FUNSD-Datensatz einen F1-Score von 65,96 % erreicht. Für den praktischen Einsatz wurde das Modell in der internen Zoll-Datenanwendung eingesetzt und erzielt dort zuverlässige Leistung im Produktivbetrieb.