Command Palette
Search for a command to run...
Vision Grid Transformer für die Dokumentenlayoutanalyse
Vision Grid Transformer für die Dokumentenlayoutanalyse
Cheng Da Chuwei Luo Qi Zheng Cong Yao
Zusammenfassung
Dokumentvorabtrainierte Modelle und gitterbasierte Modelle haben sich bei verschiedenen Aufgaben im Bereich Document AI als sehr effektiv erwiesen. Bei der Dokumentlayoutanalyse (DLA) jedoch basieren existierende vorabtrainierte Modelle, auch solche, die multimodal vorabtrainiert wurden, in der Regel auf entweder textuellen oder visuellen Merkmalen. Gitterbasierte Modelle für DLA sind multimodal, ignorieren aber weitgehend den Effekt des Vorabtrainings. Um die multimodalen Informationen vollständig zu nutzen und Vorabtrainingstechniken zur besseren Darstellung für DLA auszuschöpfen, präsentieren wir in diesem Papier VGT, einen zweistromigen Vision Grid Transformer. Dabei wird der Grid Transformer (GiT) vorgestellt und für die 2D-tokenbasierte und segmentbasierte semantische Verarbeitung vorabtrainiert. Des Weiteren wurde ein neuer Datensatz namens D4LA erstellt und veröffentlicht, der bislang das vielfältigste und detaillierteste manuell annotierte Benchmarking-Tool für die Dokumentlayoutanalyse ist. Die Experimentsergebnisse zeigen, dass das vorgeschlagene VGT-Modell neue Standarteinstellungen bei DLA-Aufgaben erzielt, z.B. PubLayNet (95,7%→96,2%), DocBank (79,6%→84,1%) und D4LA (67,7%→68,8%). Der Code sowie die Modelle und der D4LA-Datensatz werden öffentlich verfügbar gemacht: \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}.