Modellierung der Lesereihenfolge von Layouts als Ordnungsrelationen für die Verarbeitung visuell reicher Dokumente

Das Modellieren und Nutzen der Lesereihenfolge von Layouts in visuell reichhaltigen Dokumenten (VrDs) ist von entscheidender Bedeutung für die Dokumentenintelligenz, da es die strukturelle Semantik innerhalb der Dokumente erfasst. Frühere Arbeiten formulierte die Lesereihenfolge des Layouts in der Regel als Permutation von Layoutelementen, d.h. eine Sequenz, die alle Layoutelemente enthält. Wir argumentieren jedoch, dass diese Formulierung nicht ausreichend die vollständige Lesereihenfolgeinformation im Layout vermittelt, was zu einer möglichen Leistungsabnahme bei nachgelagerten VrD-Aufgaben führen könnte. Um dieses Problem zu lösen, schlagen wir vor, die Lesereihenfolge des Layouts als Ordnungsbeziehungen über die Menge der Layoutelemente zu modellieren, welche eine ausreichende Ausdrucksstärke für die vollständige Lesereihenfolgeinformation bieten. Um eine empirische Bewertung der Methoden zur verbesserten Vorhersage der Lesereihenfolge (ROP) zu ermöglichen, haben wir einen umfassenden Benchmark-Datensatz eingerichtet, der neben den Lesereihenfolgenotierungen als Beziehungen zwischen den Layoutelementen auch eine beziehungsorientierte Extraktionsmethode enthält, die frühere Methoden übertreffen kann. Darüber hinaus, um die praktischen Vorteile der Einführung der verbesserten Form der Layout-Lesereihenfolge hervorzuheben, schlagen wir einen Pipeline-Vorschlag vor, der durch das Hinzufügen zusätzlicher Lesereihenfolgenbeziehungen als Eingaben das Leistungsniveau von Modellen bei beliebigen VrD-Aufgaben verbessert. Umfassende Ergebnisse zeigen, dass dieser Pipeline generell den nachgelagerten VrD-Aufgaben zugutekommt: (1) durch die Nutzung der Informationen über die Lesereihenfolgenbeziehungen erreichen die optimierten nachgelagerten Modelle auf beiden Aufgabensätzen des gezielten Datensatzes Spitzenwerte (SOTA); (2) durch die Nutzung der pseudoleserischen Reihenfolgeinformationen, die vom vorgeschlagenen ROP-Modell generiert werden, konnte sich das Leistungsniveau aller drei Modelle und acht cross-domain VrD-IE/QA-Aufgabensätze ohne gezielte Optimierung verbessern.