HyperAIHyperAI

Command Palette

Search for a command to run...

Un modèle basé sur LayoutLMv3 pour une extraction de relations améliorée dans les documents visuellement riches

Wiam Adnan Joel Tang Yassine Bel Khayat Zouggari Seif Edinne Laatiri Laurent Lam Fabien Caspani

Résumé

La compréhension de documents est un domaine en pleine évolution dans le traitement du langage naturel (NLP). En particulier, les caractéristiques visuelles et spatiales sont essentielles en plus du texte brut lui-même, d'où le développement de plusieurs modèles multimodaux dans le domaine de la compréhension visuelle des documents (VDU). Cependant, si la recherche se concentre principalement sur l'extraction d'informations clés (KIE), l'extraction de relations (RE) entre les entités identifiées reste encore peu étudiée. Par exemple, la RE est cruciale pour regrouper les entités ou obtenir une hiérarchie complète des données dans un document. Dans cet article, nous présentons un modèle initialisé à partir de LayoutLMv3 qui peut égaler ou surpasser les résultats actuels de pointe en RE appliquée aux documents visuellement riches (VRD) sur les jeux de données FUNSD et CORD, sans pré-entraînement spécifique et avec moins de paramètres. Nous rapportons également une étude d'ablation exhaustive réalisée sur FUNSD, soulignant l'impact majeur de certaines caractéristiques et choix de modélisation sur les performances.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Un modèle basé sur LayoutLMv3 pour une extraction de relations améliorée dans les documents visuellement riches | Articles | HyperAI