HyperAIHyperAI
il y a 2 mois

LayoutLM : Pré-entraînement du texte et de la mise en page pour la compréhension des images de documents

Yiheng Xu; Minghao Li; Lei Cui; Shaohan Huang; Furu Wei; Ming Zhou
LayoutLM : Pré-entraînement du texte et de la mise en page pour la compréhension des images de documents
Résumé

Les techniques de pré-entraînement ont été vérifiées avec succès dans diverses tâches de traitement du langage naturel (NLP) ces dernières années. Bien que les modèles de pré-entraînement soient largement utilisés pour les applications NLP, ils se concentrent presque exclusivement sur la manipulation au niveau du texte, négligeant ainsi des informations cruciales sur la mise en page et le style qui sont essentielles pour la compréhension des images de documents. Dans cet article, nous proposons LayoutLM pour modéliser conjointement les interactions entre le texte et les informations de mise en page à travers des images de documents numérisés, ce qui est bénéfique pour un grand nombre de tâches réelles de compréhension des images de documents, telles que l'extraction d'informations à partir de documents numérisés. De plus, nous utilisons également des caractéristiques d'image pour intégrer les informations visuelles des mots dans LayoutLM. À notre connaissance, c'est la première fois que le texte et la mise en page sont appris conjointement dans un seul cadre pour le pré-entraînement au niveau du document. Ce modèle obtient de nouveaux résultats d'état de l'art dans plusieurs tâches en aval, notamment la compréhension des formulaires (de 70,72 à 79,27), la compréhension des reçus (de 94,02 à 95,24) et la classification d'images de documents (de 93,07 à 94,42). Le code source et les modèles LayoutLM pré-entraînés sont disponibles publiquement à l'adresse \url{https://aka.ms/layoutlm}.

LayoutLM : Pré-entraînement du texte et de la mise en page pour la compréhension des images de documents | Articles de recherche récents | HyperAI