HyperAIHyperAI
vor 2 Monaten

Vision, Text und Layout für die universelle Dokumentverarbeitung vereinen

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal
Vision, Text und Layout für die universelle Dokumentverarbeitung vereinen
Abstract

Wir schlagen Universal Document Processing (UDOP) vor, ein grundlegendes Document AI-Modell, das Text, Bild und Layout-Modalitäten zusammen mit verschiedenen Aufgabenformaten, einschließlich Dokumentverstehen und -generierung, vereint. UDOP nutzt die räumliche Korrelation zwischen textuellem Inhalt und Dokumentbild, um Bild-, Text- und Layout-Modalitäten mit einer einheitlichen Darstellung zu modellieren. Mit einem neuartigen Vision-Text-Layout-Transformer vereint UDOP das Vortrainieren und die mult-domänen Downstream-Aufgaben in ein promptbasiertes Sequenzgenerierungsverfahren. UDOP wird sowohl auf großen Mengen an nicht annotierten Dokumentkorpora unter Verwendung innovativer selbstüberwachter Lernziele als auch auf vielfältigen annotierten Daten vortrainiert. UDOP lernt zudem, Dokumentbilder aus Text- und Layout-Modalitäten durch maskebasierte Bildrekonstruktion zu generieren. Nach unserem Wissen ist dies das erste Mal im Bereich der Document AI, dass ein Modell gleichzeitig hochwertige neuronale Dokumentbearbeitung und Inhaltsanpassung erreicht. Unsere Methode stellt den aktuellen Stand der Technik in 8 Document AI-Aufgaben dar, wie zum Beispiel Dokumentverstehen und QA, über verschiedene Datendomains wie Finanzberichte, wissenschaftliche Arbeiten und Websites hinweg. UDOP führt die Rangliste des Document Understanding Benchmarks an.

Vision, Text und Layout für die universelle Dokumentverarbeitung vereinen | Neueste Forschungsarbeiten | HyperAI