HyperAIHyperAI
il y a 2 mois

ERNIE-Layout : Pré-entraînement amélioré par les connaissances de mise en page pour la compréhension de documents visuellement riches

Qiming Peng; Yinxu Pan; Wenjin Wang; Bin Luo; Zhenyu Zhang; Zhengjie Huang; Teng Hu; Weichong Yin; Yongfeng Chen; Yin Zhang; Shikun Feng; Yu Sun; Hao Tian; Hua Wu; Haifeng Wang
ERNIE-Layout : Pré-entraînement amélioré par les connaissances de mise en page pour la compréhension de documents visuellement riches
Résumé

Ces dernières années ont vu l'émergence et le succès des techniques de pré-entraînement dans la compréhension des documents riches en éléments visuels. Cependant, la plupart des méthodes existantes manquent d'une exploitation systématique et d'un usage efficace des connaissances axées sur la mise en page, ce qui entraîne des performances sous-optimales. Dans cet article, nous proposons ERNIE-Layout, une nouvelle solution de pré-entraînement de documents intégrant l'amélioration des connaissances liées à la mise en page tout au long du processus, afin d'apprendre des représentations plus performantes combinant les caractéristiques du texte, de la mise en page et de l'image. Plus précisément, nous réorganisons d'abord les séquences d'entrée lors de l'étape de sérialisation, puis nous présentons une tâche de pré-entraînement corrélative, la prédiction de l'ordre de lecture, pour apprendre l'ordre de lecture approprié des documents. Pour améliorer la sensibilité à la mise en page du modèle, nous intégrons une attention spatiale dissociée dans le transformateur multimodal et une tâche de prédiction des régions remplacées dans la phase de pré-entraînement. Les résultats expérimentaux montrent que ERNIE-Layout obtient des performances supérieures sur diverses tâches en aval, établissant un nouveau niveau d'excellence (state-of-the-art) sur les jeux de données d'extraction d'informations clés, de classification d'images documentaires et de réponse aux questions sur les documents. Le code source et les modèles sont librement accessibles à l'adresse suivante : http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout.

ERNIE-Layout : Pré-entraînement amélioré par les connaissances de mise en page pour la compréhension de documents visuellement riches | Articles de recherche récents | HyperAI