LAMBERT : Modélisation (linguistique) consciente de la mise en page pour l'extraction d'informations

Nous introduisons une nouvelle approche simple pour le problème de la compréhension des documents où la mise en page non triviale influence la sémantique locale. À cette fin, nous modifions l'architecture du encodeur Transformer de manière à permettre à ce dernier d'utiliser des caractéristiques de mise en page extraites à partir d'un système OCR, sans avoir à réapprendre les sémantiques linguistiques depuis le début. Nous enrichissons uniquement l'entrée du modèle avec les coordonnées des boîtes englobantes des tokens, évitant ainsi l'utilisation d'images brutes. Cela donne lieu à un modèle linguistique sensible à la mise en page, pouvant ensuite être affiné sur des tâches en aval.Le modèle est évalué sur une tâche d'extraction d'information en bout à bout, utilisant quatre jeux de données publics : Kleister NDA, Kleister Charity, SROIE et CORD. Nous montrons que notre modèle obtient des performances supérieures sur les jeux de données composés de documents visuellement riches, tout en surpassant également le modèle de référence RoBERTa sur les documents à mise en page plate (amélioration du score F₁ de NDA de 78,50 à 80,42). Notre solution a obtenu la première place sur le classement public pour l'extraction des informations clés sur le jeu de données SROIE, en améliorant le score F₁ de l'état de l'art de 97,81 à 98,17.