LayoutXLM : Présentation multimodale pré-entraînée pour la compréhension multilingue de documents visuellement riches

L'entraînement préalable multimodal utilisant du texte, une mise en page et des images a récemment atteint des performances de pointe (SOTA) pour les tâches de compréhension de documents visuellement riches, démontrant ainsi un grand potentiel pour l'apprentissage conjoint à travers différentes modalités. Dans cet article, nous présentons LayoutXLM, un modèle d'entraînement préalable multimodal pour la compréhension multilingue des documents, qui vise à surmonter les barrières linguistiques dans la compréhension des documents visuellement riches. Pour évaluer avec précision LayoutXLM, nous introduisons également un jeu de données de référence multilingue pour la compréhension des formulaires, nommé XFUND, qui comprend des échantillons de compréhension de formulaires en 7 langues (chinois, japonais, espagnol, français, italien, allemand, portugais), et les paires clé-valeur sont manuellement étiquetées pour chaque langue. Les résultats expérimentaux montrent que le modèle LayoutXLM a significativement surpassé les modèles d'entraînement préalable croisé existants de pointe (SOTA) sur le jeu de données XFUND. Le modèle d'entraînement préalable LayoutXLM et le jeu de données XFUND sont disponibles au public à l'adresse suivante : https://aka.ms/layoutxlm.