HyperAIHyperAI

Command Palette

Search for a command to run...

DiT: Selbstüberwachtes Vortraining für Document Image Transformer

Junlong Li Yiheng Xu Tengchao Lv Lei Cui Cha Zhang Furu Wei

Zusammenfassung

Der Image Transformer hat kürzlich bei der Verarbeitung natürlicher Bilder erhebliche Fortschritte gemacht, sei es durch überwachte (ViT, DeiT usw.) oder selbstüberwachte (BEiT, MAE usw.) Vortrainingsmethoden. In dieser Arbeit schlagen wir \textbf{DiT} vor, einen selbstüberwachten vortrainierten \textbf{D}okument-\textbf{I}mage-\textbf{T}ransformer-Modell, das große Mengen an nicht gekennzeichneten Textbildern für Document AI-Aufgaben verwendet. Dies ist von entscheidender Bedeutung, da aufgrund des Mangels an menschlich gekennzeichneten Dokumentbildern keine überwachten Entsprechungen existieren. Wir nutzen DiT als Rückgratnetzwerk in verschiedenen visionbasierten Document AI-Aufgaben, darunter die Klassifizierung von Dokumentbildern, die Analyse von Dokumentlayouts, die Erkennung von Tabellen sowie die Texterkennung für OCR. Die experimentellen Ergebnisse zeigen, dass das selbstüberwachte vortrainierte DiT-Modell neue Standartleistungen auf diesen nachgelagerten Aufgaben erzielt, z.B. bei der Klassifizierung von Dokumentbildern (91,11 \rightarrow 92,69), der Analyse von Dokumentlayouts (91,0 \rightarrow 94,9), der Tabelleenerkennung (94,23 \rightarrow 96,55) und der Texterkennung für OCR (93,07 \rightarrow 94,29). Der Code und die vortrainierten Modelle sind öffentlich verfügbar unter \url{https://aka.ms/msdit}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp