HyperAIHyperAI
il y a 2 mois

Modélisation de l'ordre de lecture des mises en page comme relations d'ordonnancement pour la compréhension de documents visuellement riches

Chong Zhang; Yi Tu; Yixi Zhao; Chenshu Yuan; Huan Chen; Yue Zhang; Mingxu Chai; Ya Guo; Huijia Zhu; Qi Zhang; Tao Gui
Modélisation de l'ordre de lecture des mises en page comme relations d'ordonnancement pour la compréhension de documents visuellement riches
Résumé

La modélisation et l'exploitation de l'ordre de lecture des mises en page dans les documents visuellement riches (VrDs) sont cruciales en intelligence documentaire car elles capturent la sémantique structurale riche contenue dans les documents. Les travaux précédents ont généralement formulé l'ordre de lecture des mises en page comme une permutation des éléments de mise en page, c'est-à-dire une séquence contenant tous les éléments de mise en page. Cependant, nous soutenons que cette formulation ne transmet pas adéquatement l'information complète sur l'ordre de lecture dans la mise en page, ce qui peut potentiellement entraîner une baisse des performances dans les tâches VrD ultérieures. Pour remédier à ce problème, nous proposons de modéliser l'ordre de lecture des mises en page comme des relations d'ordre au sein de l'ensemble des éléments de mise en page, qui possèdent une capacité expressive suffisante pour transmettre l'information complète sur l'ordre de lecture. Afin de permettre une évaluation empirique des méthodes visant une forme améliorée de prédiction de l'ordre de lecture (ROP), nous avons établi un jeu de données benchmark complet incluant les annotations d'ordre de lecture sous forme de relations entre les éléments de mise en page, ainsi qu'une méthode basée sur l'extraction de relations qui surpassent les méthodes antérieures. De plus, pour mettre en lumière les avantages pratiques liés à l'introduction d'une forme améliorée d'ordre de lecture des mises en page, nous proposons un pipeline renforcé par des relations d'ordre de lecture afin d'améliorer les performances du modèle sur toute tâche VrD arbitraire grâce à la fourniture d'entrées supplémentaires d'information sur l'ordre de lecture. Des résultats exhaustifs démontrent que le pipeline bénéficie globalement aux tâches VrD ultérieures : (1) grâce à l'utilisation des informations sur les relations d'ordre de lecture, les modèles améliorés atteignent des résultats SOTA (State-of-the-Art) dans les deux configurations de tâches du jeu de données cible ; (2) grâce à l'utilisation des informations pseudo-ordonnées générées par le modèle ROP proposé, les performances des modèles améliorés se sont améliorées pour tous les trois modèles et huit configurations inter-domaines VrD-IE/QA sans optimisation ciblée.

Modélisation de l'ordre de lecture des mises en page comme relations d'ordonnancement pour la compréhension de documents visuellement riches | Articles de recherche récents | HyperAI