HyperAIHyperAI

Command Palette

Search for a command to run...

LayoutLMv3 : Pré-entraînement pour l'IA documentaire avec masquage unifié du texte et de l'image

Yupan Huang Tengchao Lv Lei Cui Yutong Lu Furu Wei

Résumé

Les techniques d'auto-supervision pré-entraînée ont connu des progrès remarquables dans le domaine de l'IA pour les documents (Document AI). La plupart des modèles pré-entraînés multimodaux utilisent un objectif de modèle de langage masqué pour apprendre des représentations bidirectionnelles sur la modalité texte, mais ils diffèrent en ce qui concerne les objectifs de pré-entraînement pour la modalité image. Cette disparité ajoute une difficulté à l'apprentissage des représentations multimodales. Dans cet article, nous proposons \textbf{LayoutLMv3}, un modèle permettant de pré-entraîner des Transformers multimodaux pour l'IA des documents avec un masquage unifié du texte et de l'image. De plus, LayoutLMv3 est pré-entraîné avec un objectif d'alignement mot-patch afin d'apprendre l'alignement intermodale en prédiction si le patch image correspondant à un mot de texte est masqué. L'architecture simple et unifiée ainsi que les objectifs d'entraînement rendent LayoutLMv3 un modèle pré-entraîné polyvalent pour les tâches d'IA des documents centrées tant sur le texte que sur l'image. Les résultats expérimentaux montrent que LayoutLMv3 atteint des performances de pointe non seulement dans les tâches centrées sur le texte, telles que la compréhension des formulaires, la compréhension des reçus et la réponse aux questions visuelles sur les documents, mais aussi dans les tâches centrées sur l'image, comme la classification d'images de documents et l'analyse de mise en page de documents. Le code source et les modèles sont disponibles au public à l'adresse \url{https://aka.ms/layoutlmv3}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp