HyperAIHyperAI

Command Palette

Search for a command to run...

Ein grafischer Ansatz zur Dokumentenlayoutanalyse

Wang Jilin ; Krumdick Michael ; Tong Baojia ; Halim Hamima ; Sokolov Maxim ; Barda Vadym ; Vendryes Delphine ; Tanner Chris

Zusammenfassung

Die Dokumentenlayoutanalyse (DLA) ist die Aufgabe, den unterschiedlichen, semantischen Inhalt innerhalb eines Dokuments zu erkennen und diese Elemente korrekt in eine geeignete Kategorie (z.B. Text, Titel, Abbildung) zu klassifizieren. DLA-Pipelines ermöglichen es Benutzern, Dokumente in strukturierte maschinenlesbare Formate umzuwandeln, die anschließend für viele nützliche nachgelagerte Aufgaben genutzt werden können. Die meisten bestehenden state-of-the-art (SOTA)-DLA-Modelle stellen Dokumente als Bilder dar und ignorieren dabei die reichhaltigen Metadaten, die in elektronisch generierten PDFs verfügbar sind. Indem wir diese Metadaten direkt nutzen, stellen wir jede PDF-Seite als einen strukturierten Graphen dar und formulieren das DLA-Problem als ein Problem der Graphensegmentierung und -klassifizierung. Wir stellen das graphbasierte Layout-Analyse-Modell (GLAM) vor, ein leichtgewichtiges grafikneuronales Netzwerk, das sich bei zwei anspruchsvollen DLA-Datensätzen mit SOTA-Modellen messen kann – während es um ein Vielfaches kleiner ist als bestehende Modelle. Insbesondere übertrifft das 4-Millionen-Parameter-Modell GLAM das führende computer-vision-basierte Modell mit über 140 Millionen Parametern in 5 von 11 Klassen im DocLayNet-Datensatz. Eine einfache Ensemble-Kombination dieser beiden Modelle erzielt einen neuen Stand der Technik auf DocLayNet und erhöht den mAP von 76,8 auf 80,8. Insgesamt ist GLAM mehr als fünfmal effizienter als SOTA-Modelle, was GLAM zur bevorzugten technischen Wahl für DLA-Aufgaben macht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp