il y a 2 mois

LayoutLMv3 : Pré-entraînement pour l'IA documentaire avec masquage unifié du texte et de l'image

Huang, Yupan ; Lv, Tengchao ; Cui, Lei ; Lu, Yutong ; Wei, Furu

Résumé

Les techniques d'auto-supervision pré-entraînée ont connu des progrès remarquables dans le domaine de l'IA pour les documents (Document AI). La plupart des modèles pré-entraînés multimodaux utilisent un objectif de modèle de langage masqué pour apprendre des représentations bidirectionnelles sur la modalité texte, mais ils diffèrent en ce qui concerne les objectifs de pré-entraînement pour la modalité image. Cette disparité ajoute une difficulté à l'apprentissage des représentations multimodales. Dans cet article, nous proposons \textbf{LayoutLMv3}, un modèle permettant de pré-entraîner des Transformers multimodaux pour l'IA des documents avec un masquage unifié du texte et de l'image. De plus, LayoutLMv3 est pré-entraîné avec un objectif d'alignement mot-patch afin d'apprendre l'alignement intermodale en prédiction si le patch image correspondant à un mot de texte est masqué. L'architecture simple et unifiée ainsi que les objectifs d'entraînement rendent LayoutLMv3 un modèle pré-entraîné polyvalent pour les tâches d'IA des documents centrées tant sur le texte que sur l'image. Les résultats expérimentaux montrent que LayoutLMv3 atteint des performances de pointe non seulement dans les tâches centrées sur le texte, telles que la compréhension des formulaires, la compréhension des reçus et la réponse aux questions visuelles sur les documents, mais aussi dans les tâches centrées sur l'image, comme la classification d'images de documents et l'analyse de mise en page de documents. Le code source et les modèles sont disponibles au public à l'adresse \url{https://aka.ms/layoutlmv3}.