GeoLayoutLM: Geometrisches Vortraining für die visuelle Informationsextraktion

Die visuelle Informationsextraktion (VIE) spielt eine wichtige Rolle in der Dokumentenintelligenz. Im Allgemeinen wird sie in zwei Aufgaben unterteilt: die semantische Entitätserkennung (SER) und die Relationsextraktion (RE). Kürzlich haben vortrainierte Modelle für Dokumente bei der VIE, insbesondere bei der SER, erhebliche Fortschritte gemacht. Dennoch lernen die meisten existierenden Modelle die geometrische Darstellung auf implizite Weise, was sich als unzureichend für die RE-Aufgabe erwiesen hat, da geometrische Informationen besonders wichtig für RE sind. Darüber hinaus zeigen wir einen weiteren Faktor auf, der die Leistung von RE einschränkt: den Zielfunktionsunterschied zwischen dem Vortrainingsphase und dem Feinjustierungsphase für RE. Um diese Probleme zu lösen, schlagen wir in diesem Artikel ein multimodales Framework vor, das GeoLayoutLM genannt wird. GeoLayoutLM modelliert die geometrischen Beziehungen explizit während des Vortrainings, was wir als geometrisches Vortraining bezeichnen. Das geometrische Vortraining wird durch drei speziell entwickelte, geometriebezogene Vortrainingsaufgaben erreicht. Zudem wurden neuartige Relationsoberflächen sorgfältig entworfen, um die Merkmalsdarstellung zu bereichern und zu verbessern; diese werden durch das geometrische Vortraining vortrainiert und für RE feinjustiert. Laut umfangreichen Experimenten auf Standard-VIE-Benchmarks erreicht GeoLayoutLM hochwettbewerbsfähige Ergebnisse in der SER-Aufgabe und übertrifft signifikant die bisherigen StandesderTechnik-Modelle bei der RE (\zB steigt der F1-Wert von RE auf FUNSD von 80,35\% auf 89,45\%). Der Code und die Modelle sind öffentlich verfügbar unterhttps://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayoutLMAnmerkungen:- "Relationsoberflächen" ist hier eine Übersetzung von "relation heads". In technischen Kontexten kann dies auch als "Relationsebenen" oder "Relationsschichten" übersetzt werden.- "\zB" steht für "zum Beispiel", was im Deutschen oft verwendet wird.- Die Prozentangaben wurden wie im Originaltext formatiert.