HyperAIHyperAI

Command Palette

Search for a command to run...

LAMBERT : Modélisation (linguistique) consciente de la mise en page pour l'extraction d'informations

Łukasz Garncarek Rafał Powalski Tomasz Stanisławek Bartosz Topolski Piotr Halama Michał Turski Filip Graliński

Résumé

Nous introduisons une nouvelle approche simple pour le problème de la compréhension des documents où la mise en page non triviale influence la sémantique locale. À cette fin, nous modifions l'architecture du encodeur Transformer de manière à permettre à ce dernier d'utiliser des caractéristiques de mise en page extraites à partir d'un système OCR, sans avoir à réapprendre les sémantiques linguistiques depuis le début. Nous enrichissons uniquement l'entrée du modèle avec les coordonnées des boîtes englobantes des tokens, évitant ainsi l'utilisation d'images brutes. Cela donne lieu à un modèle linguistique sensible à la mise en page, pouvant ensuite être affiné sur des tâches en aval.Le modèle est évalué sur une tâche d'extraction d'information en bout à bout, utilisant quatre jeux de données publics : Kleister NDA, Kleister Charity, SROIE et CORD. Nous montrons que notre modèle obtient des performances supérieures sur les jeux de données composés de documents visuellement riches, tout en surpassant également le modèle de référence RoBERTa sur les documents à mise en page plate (amélioration du score F₁ de NDA de 78,50 à 80,42). Notre solution a obtenu la première place sur le classement public pour l'extraction des informations clés sur le jeu de données SROIE, en améliorant le score F₁ de l'état de l'art de 97,81 à 98,17.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp