HyperAIHyperAI
il y a 15 jours

Cadre unifié de préentraînement pour la compréhension de documents

Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, Handong Zhao, Nikolaos Barmpalios, Rajiv Jain, Ani Nenkova, Tong Sun
Cadre unifié de préentraînement pour la compréhension de documents
Résumé

L’intelligence documentaire automatisée permet d’extraire automatiquement des informations à partir de documents et soutient de nombreuses applications métier. Les méthodes récentes d’apprentissage auto-supervisé sur de grandes bases de données de documents non étiquetés ont ouvert de nouvelles voies prometteuses pour réduire les efforts d’étiquetage grâce à l’entraînement de modèles à l’aide d’objectifs auto-supervisés. Toutefois, la plupart des méthodes actuelles de pré-entraînement sur documents restent dominées par la langue. Nous présentons UDoc, un nouveau cadre unifié de pré-entraînement pour la compréhension des documents. UDoc est conçu pour supporter la majorité des tâches de compréhension documentaire, en étendant le modèle Transformer afin qu’il puisse accepter comme entrée des embeddings multimodaux. Chaque élément d’entrée est composé de mots et de caractéristiques visuelles provenant d’une région sémantique de l’image du document d’entrée. Une caractéristique importante de UDoc réside dans sa capacité à apprendre une représentation générique en exploitant trois pertes auto-supervisées, qui encouragent la représentation à modéliser des phrases, à apprendre des similarités et à aligner les modalités. Une analyse empirique étendue démontre que le processus de pré-entraînement permet d’apprendre des représentations conjointes plus performantes, conduisant à des améliorations significatives sur les tâches en aval.