VSR: Ein einheitlicher Rahmen für die Dokumentenanlayoutanalyse durch Kombination von Vision, Semantik und Relationen

Die Dokumentenlayoutanalyse ist entscheidend für das Verständnis von Dokumentenstrukturen. Bei dieser Aufgabe tragen die visuelle und semantische Information von Dokumenten sowie die Beziehungen zwischen Layoutkomponenten maßgeblich zum Verständnisprozess bei. Obwohl zahlreiche Ansätze vorgeschlagen wurden, um diese Informationen auszunutzen, zeigen sie unzureichende Ergebnisse. NLP-basierte Methoden modellieren die Layoutanalyse als Sequenzmarkierungsaufgabe und weisen eine ungenügende Fähigkeit zur Layoutmodellierung auf. CV-basierte Methoden modellieren die Aufgabe hingegen als Detektion- oder Segmentierungsaufgabe, leiden jedoch unter ineffizienter Modalitätenfusion und fehlender Modellierung von Beziehungen zwischen Layoutkomponenten. Um diese Einschränkungen zu überwinden, schlagen wir einen einheitlichen Rahmen VSR für die Dokumentenlayoutanalyse vor, der Vision, Semantik und Beziehungen integriert. VSR unterstützt sowohl NLP- als auch CV-basierte Ansätze. Konkret führen wir zunächst die Visuelle durch Dokumentbilder und die Semantik durch Text-Embedding-Karten ein. Anschließend werden modality-spezifische visuelle und semantische Merkmale mittels eines Zweistrom-Netzwerks extrahiert, die adaptiv fusioniert werden, um das komplementäre Informationspotential voll auszuschöpfen. Schließlich wird, ausgehend von Kandidaten für Layoutkomponenten, ein auf Graph-Neural-Networks basierender Beziehungsmodul integriert, um Beziehungen zwischen Komponenten zu modellieren und die endgültigen Ergebnisse zu generieren. Auf drei gängigen Benchmarks übertrifft VSR die bisherigen Modelle deutlich. Der Quellcode wird in Kürze veröffentlicht.