HyperAIHyperAI
il y a 17 jours

DUBLIN -- Compréhension de documents par réseau langage-image

Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu, Monojit Choudhury, Hardik Hansrajbhai Chauhan, Subhojit Som, Vishrav Chaudhary, Saurabh Tiwary
DUBLIN -- Compréhension de documents par réseau langage-image
Résumé

La compréhension visuelle des documents est une tâche complexe qui consiste à analyser à la fois le texte et les éléments visuels présents dans les images de documents. Les modèles existants s'appuient souvent sur une conception manuelle de caractéristiques ou sur des chaînes de traitement spécifiques à un domaine, ce qui limite leur capacité à généraliser à différents types de documents et à différentes langues. Dans cet article, nous proposons DUBLIN, un modèle pré-entraîné sur des pages web à l’aide de trois nouvelles tâches : la tâche de génération de texte masqué dans les documents, la tâche de prédiction de boîtes englobantes (bounding box) et la tâche de réponse à des questions rendues (Rendered Question Answering), toutes trois exploitant à la fois les informations spatiales et sémantiques présentes dans les images de documents. Notre modèle obtient des résultats compétitifs ou de pointe sur plusieurs benchmarks, notamment la lecture compréhensive structurée basée sur le web (WebSRC), la question-réponse visuelle pour documents (DocVQA), l’extraction d’informations clés, la compréhension de schémas et la question-réponse sur les tableaux. En particulier, nous démontrons que DUBLIN est le premier modèle basé sur les pixels à atteindre un score EM de 77,75 et un score F1 de 84,25 sur le jeu de données WebSRC. Nous montrons également que notre modèle surpasser les modèles de pointe actuels basés sur les pixels sur les jeux de données DocVQA, InfographicsVQA, OCR-VQA et AI2D respectivement de 4,6 %, 6,5 %, 2,6 % et 21 %. Nous obtenons également des performances compétitives sur la classification de documents RVL-CDIP. En outre, nous établissons de nouvelles bases (baselines) pour les jeux de données basés sur le texte en les convertissant en images de documents, afin de stimuler la recherche dans cette direction.

DUBLIN -- Compréhension de documents par réseau langage-image | Articles de recherche récents | HyperAI