HyperAIHyperAI

Command Palette

Search for a command to run...

LayoutXLM : Présentation multimodale pré-entraînée pour la compréhension multilingue de documents visuellement riches

Yiheng Xu Tengchao Lv Lei Cui Guoxin Wang Yijuan Lu Dinei Florencio Cha Zhang Furu Wei

Résumé

L'entraînement préalable multimodal utilisant du texte, une mise en page et des images a récemment atteint des performances de pointe (SOTA) pour les tâches de compréhension de documents visuellement riches, démontrant ainsi un grand potentiel pour l'apprentissage conjoint à travers différentes modalités. Dans cet article, nous présentons LayoutXLM, un modèle d'entraînement préalable multimodal pour la compréhension multilingue des documents, qui vise à surmonter les barrières linguistiques dans la compréhension des documents visuellement riches. Pour évaluer avec précision LayoutXLM, nous introduisons également un jeu de données de référence multilingue pour la compréhension des formulaires, nommé XFUND, qui comprend des échantillons de compréhension de formulaires en 7 langues (chinois, japonais, espagnol, français, italien, allemand, portugais), et les paires clé-valeur sont manuellement étiquetées pour chaque langue. Les résultats expérimentaux montrent que le modèle LayoutXLM a significativement surpassé les modèles d'entraînement préalable croisé existants de pointe (SOTA) sur le jeu de données XFUND. Le modèle d'entraînement préalable LayoutXLM et le jeu de données XFUND sont disponibles au public à l'adresse suivante : https://aka.ms/layoutxlm.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp