HyperAIHyperAI

Command Palette

Search for a command to run...

Vision Grid Transformer für die Dokumentenlayoutanalyse

Cheng Da Chuwei Luo Qi Zheng Cong Yao

Zusammenfassung

Dokumentvorabtrainierte Modelle und gitterbasierte Modelle haben sich bei verschiedenen Aufgaben im Bereich Document AI als sehr effektiv erwiesen. Bei der Dokumentlayoutanalyse (DLA) jedoch basieren existierende vorabtrainierte Modelle, auch solche, die multimodal vorabtrainiert wurden, in der Regel auf entweder textuellen oder visuellen Merkmalen. Gitterbasierte Modelle für DLA sind multimodal, ignorieren aber weitgehend den Effekt des Vorabtrainings. Um die multimodalen Informationen vollständig zu nutzen und Vorabtrainingstechniken zur besseren Darstellung für DLA auszuschöpfen, präsentieren wir in diesem Papier VGT, einen zweistromigen Vision Grid Transformer. Dabei wird der Grid Transformer (GiT) vorgestellt und für die 2D-tokenbasierte und segmentbasierte semantische Verarbeitung vorabtrainiert. Des Weiteren wurde ein neuer Datensatz namens D4^44LA erstellt und veröffentlicht, der bislang das vielfältigste und detaillierteste manuell annotierte Benchmarking-Tool für die Dokumentlayoutanalyse ist. Die Experimentsergebnisse zeigen, dass das vorgeschlagene VGT-Modell neue Standarteinstellungen bei DLA-Aufgaben erzielt, z.B. PubLayNet (95,7%96,2%95{,}7\% \rightarrow 96{,}2\%95,7%96,2%), DocBank (79,6%84,1%79{,}6\% \rightarrow 84{,}1\%79,6%84,1%) und D4^44LA (67,7%68,8%67{,}7\% \rightarrow 68{,}8\%67,7%68,8%). Der Code sowie die Modelle und der D4^44LA-Datensatz werden öffentlich verfügbar gemacht: \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp