HyperAIHyperAI
il y a 2 mois

L'Ordre de Lecture Compte : Extraction d'Informations à partir de Documents Visuellement Riches par Prédiction de Trajectoire de Tokens

Zhang, Chong ; Guo, Ya ; Tu, Yi ; Chen, Huan ; Tang, Jinyang ; Zhu, Huijia ; Zhang, Qi ; Gui, Tao
L'Ordre de Lecture Compte : Extraction d'Informations à partir de Documents Visuellement Riches par Prédiction de Trajectoire de Tokens
Résumé

Les progrès récents dans les modèles pré-entraînés multimodaux ont considérablement amélioré l'extraction d'informations à partir de documents visuellement riches (VrDs), où la reconnaissance d'entités nommées (NER) est traitée comme une tâche d'étiquetage séquentiel consistant à prédire les étiquettes d'entités BIO pour les jetons, selon le cadre typique du traitement du langage naturel (NLP). Cependant, le schéma d'étiquetage BIO repose sur l'ordre correct des entrées du modèle, ce qui n'est pas garanti dans la NER réelle sur des VrDs numérisés où le texte est reconnu et organisé par des systèmes OCR. Ce problème d'ordre de lecture entrave l'étiquetage précis des entités par le schéma BIO, rendant impossible pour les méthodes d'étiquetage séquentiel de prédire des entités nommées correctes. Pour résoudre ce problème d'ordre de lecture, nous introduisons la prédiction de chemins de jetons (TPP), une tête de prédiction simple qui prédit les mentions d'entités comme des séquences de jetons au sein des documents. Contrairement à la classification de jetons, TPP modélise la mise en page du document comme un graphe dirigé complet de jetons, et prédit des chemins de jetons au sein du graphe en tant qu'entités. Pour une évaluation plus précise des systèmes VrD-NER, nous proposons également deux jeux de données基准数据集 (benchmark datasets) révisés pour la NER sur des documents numérisés, capables de refléter des scénarios réels. Les résultats expérimentaux démontrent l'efficacité de notre méthode et suggèrent son potentiel pour être une solution universelle à diverses tâches d'extraction d'informations sur les documents.Note: "基准数据集" is translated as "jeux de données" with the original term in parentheses to ensure clarity and completeness of information.

L'Ordre de Lecture Compte : Extraction d'Informations à partir de Documents Visuellement Riches par Prédiction de Trajectoire de Tokens | Articles de recherche récents | HyperAI