HyperAIHyperAI
il y a 2 mois

Révéler les insuffisances des modèles pré-entraînés de texte et de mise en page dans l'extraction d'informations à partir de documents visuellement riches du monde réel

Chong Zhang; Yixi Zhao; Yulu Xie; Chenshu Yuan; Yi Tu; Ya Guo; Mingxu Chai; Ziyu Shen; Yue Zhang; Qi Zhang
Révéler les insuffisances des modèles pré-entraînés de texte et de mise en page dans l'extraction d'informations à partir de documents visuellement riches du monde réel
Résumé

Récemment, les modèles pré-entraînés de texte et de mise en page (PTLMs) ont montré un succès remarquable dans plusieurs tâches d'extraction d'information à partir de documents visuellement riches (VrDs). Cependant, malgré des performances extrêmement élevées sur les jeux de données de référence, leurs performances dans le monde réel sont en dessous des attentes. En raison de ce problème, nous avons examiné la chaîne d'évaluation prévalente pour révéler que : (1) Les annotations insuffisantes au sein des jeux de données de référence introduisent des corrélations spurieuses entre les entrées et les étiquettes des tâches, ce qui conduit à une estimation excessivement optimiste des performances du modèle. (2) L'évaluation repose uniquement sur les performances sur les benchmarks et est insuffisante pour explorer de manière exhaustive les capacités des méthodes dans des scénarios réels. Ces problèmes empêchent la chaîne d'évaluation prévalente de refléter les performances réelles des méthodes, induisant en erreur les choix de conception pour l'optimisation des méthodes. Dans cette étude, nous présentons EC-FUNSD, un jeu de données centré sur les entités conçu pour évaluer l'extraction d'information à partir de documents visuellement riches. Ce jeu de données contient une variété de mises en page et des annotations de haute qualité. De plus, ce jeu de données dissocie les annotations segment et entité faussement couplées qui résultent des annotations par blocs du FUNSD. En utilisant le jeu de données proposé, nous évaluons les capacités d'extraction d'information dans le monde réel des PTLMs sous différents angles, y compris leur performance absolue, ainsi que leur généralisation, robustesse et équité. Les résultats montrent que les PTLMs courants ne performaient pas aussi bien qu'anticipé dans les scénarios d'extraction d'information réels. Nous espérons que notre étude inspirera une réflexion sur les orientations du développement des PTLMs.

Révéler les insuffisances des modèles pré-entraînés de texte et de mise en page dans l'extraction d'informations à partir de documents visuellement riches du monde réel | Articles de recherche récents | HyperAI