vor 2 Monaten

Vision Grid Transformer für die Dokumentenlayoutanalyse

Da, Cheng ; Luo, Chuwei ; Zheng, Qi ; Yao, Cong

Abstract

Dokumentvorabtrainierte Modelle und gitterbasierte Modelle haben sich bei verschiedenen Aufgaben im Bereich Document AI als sehr effektiv erwiesen. Bei der Dokumentlayoutanalyse (DLA) jedoch basieren existierende vorabtrainierte Modelle, auch solche, die multimodal vorabtrainiert wurden, in der Regel auf entweder textuellen oder visuellen Merkmalen. Gitterbasierte Modelle für DLA sind multimodal, ignorieren aber weitgehend den Effekt des Vorabtrainings. Um die multimodalen Informationen vollständig zu nutzen und Vorabtrainingstechniken zur besseren Darstellung für DLA auszuschöpfen, präsentieren wir in diesem Papier VGT, einen zweistromigen Vision Grid Transformer. Dabei wird der Grid Transformer (GiT) vorgestellt und für die 2D-tokenbasierte und segmentbasierte semantische Verarbeitung vorabtrainiert. Des Weiteren wurde ein neuer Datensatz namens D$^4$LA erstellt und veröffentlicht, der bislang das vielfältigste und detaillierteste manuell annotierte Benchmarking-Tool für die Dokumentlayoutanalyse ist. Die Experimentsergebnisse zeigen, dass das vorgeschlagene VGT-Modell neue Standarteinstellungen bei DLA-Aufgaben erzielt, z.B. PubLayNet ($95{,}7\% \rightarrow 96{,}2\%$), DocBank ($79{,}6\% \rightarrow 84{,}1\%$) und D$^4$LA ($67{,}7\% \rightarrow 68{,}8\%$). Der Code sowie die Modelle und der D$^4$LA-Datensatz werden öffentlich verfügbar gemacht: \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}.