Einheitlicher Vortrainingsrahmen für die Dokumentenverstehens

Dokumentenintelligenz automatisiert die Extraktion von Informationen aus Dokumenten und unterstützt zahlreiche Geschäftsanwendungen. Kürzlich entwickelte selbstüberwachte Lernmethoden auf großskaligen, nicht annotierten Dokumentdatensätzen haben vielversprechende Ansätze eröffnet, um den Aufwand bei der Annotation zu verringern, indem Modelle mit selbstüberwachten Zielfunktionen trainiert werden. Allerdings sind die meisten bestehenden Vortrainingsmethoden für Dokumente nach wie vor sprachdominiert. Wir präsentieren UDoc, einen neuen einheitlichen Vortrainingsrahmen für die Dokumentenverstehens. UDoc ist darauf ausgelegt, die meisten Aufgaben im Bereich Dokumentenverstehen zu unterstützen, indem er den Transformer erweitert, um multimodale Embeddings als Eingabe zu akzeptieren. Jedes Eingabeelement besteht aus Wörtern und visuellen Merkmalen aus einem semantischen Bereich des Eingabedokumentbildes. Ein wesentliches Merkmal von UDoc ist, dass es eine generische Darstellung durch die Nutzung dreier selbstüberwachter Verlustfunktionen lernt, wodurch die Darstellung dazu angeregt wird, Sätze zu modellieren, Ähnlichkeiten zu lernen und Modalitäten zu alignieren. Ausführliche empirische Analysen zeigen, dass der Vortrainingsprozess bessere gemeinsame Darstellungen erzeugt und zu Verbesserungen in nachgelagerten Aufgaben führt.