Ein grafischer Ansatz zur Dokumentenlayoutanalyse

Die Dokumentenlayoutanalyse (DLA) ist die Aufgabe, den unterschiedlichen, semantischen Inhalt innerhalb eines Dokuments zu erkennen und diese Elemente korrekt in eine geeignete Kategorie (z.B. Text, Titel, Abbildung) zu klassifizieren. DLA-Pipelines ermöglichen es Benutzern, Dokumente in strukturierte maschinenlesbare Formate umzuwandeln, die anschließend für viele nützliche nachgelagerte Aufgaben genutzt werden können. Die meisten bestehenden state-of-the-art (SOTA)-DLA-Modelle stellen Dokumente als Bilder dar und ignorieren dabei die reichhaltigen Metadaten, die in elektronisch generierten PDFs verfügbar sind. Indem wir diese Metadaten direkt nutzen, stellen wir jede PDF-Seite als einen strukturierten Graphen dar und formulieren das DLA-Problem als ein Problem der Graphensegmentierung und -klassifizierung. Wir stellen das graphbasierte Layout-Analyse-Modell (GLAM) vor, ein leichtgewichtiges grafikneuronales Netzwerk, das sich bei zwei anspruchsvollen DLA-Datensätzen mit SOTA-Modellen messen kann – während es um ein Vielfaches kleiner ist als bestehende Modelle. Insbesondere übertrifft das 4-Millionen-Parameter-Modell GLAM das führende computer-vision-basierte Modell mit über 140 Millionen Parametern in 5 von 11 Klassen im DocLayNet-Datensatz. Eine einfache Ensemble-Kombination dieser beiden Modelle erzielt einen neuen Stand der Technik auf DocLayNet und erhöht den mAP von 76,8 auf 80,8. Insgesamt ist GLAM mehr als fünfmal effizienter als SOTA-Modelle, was GLAM zur bevorzugten technischen Wahl für DLA-Aufgaben macht.