DiT: Selbstüberwachtes Vortraining für Document Image Transformer

Der Image Transformer hat kürzlich bei der Verarbeitung natürlicher Bilder erhebliche Fortschritte gemacht, sei es durch überwachte (ViT, DeiT usw.) oder selbstüberwachte (BEiT, MAE usw.) Vortrainingsmethoden. In dieser Arbeit schlagen wir \textbf{DiT} vor, einen selbstüberwachten vortrainierten \textbf{D}okument-\textbf{I}mage-\textbf{T}ransformer-Modell, das große Mengen an nicht gekennzeichneten Textbildern für Document AI-Aufgaben verwendet. Dies ist von entscheidender Bedeutung, da aufgrund des Mangels an menschlich gekennzeichneten Dokumentbildern keine überwachten Entsprechungen existieren. Wir nutzen DiT als Rückgratnetzwerk in verschiedenen visionbasierten Document AI-Aufgaben, darunter die Klassifizierung von Dokumentbildern, die Analyse von Dokumentlayouts, die Erkennung von Tabellen sowie die Texterkennung für OCR. Die experimentellen Ergebnisse zeigen, dass das selbstüberwachte vortrainierte DiT-Modell neue Standartleistungen auf diesen nachgelagerten Aufgaben erzielt, z.B. bei der Klassifizierung von Dokumentbildern (91,11 $\rightarrow$ 92,69), der Analyse von Dokumentlayouts (91,0 $\rightarrow$ 94,9), der Tabelleenerkennung (94,23 $\rightarrow$ 96,55) und der Texterkennung für OCR (93,07 $\rightarrow$ 94,29). Der Code und die vortrainierten Modelle sind öffentlich verfügbar unter \url{https://aka.ms/msdit}.