PP-StructureV2 : Un Système d'Analyse de Documents Plus Robuste

Une grande quantité de données documentaires existe sous forme non structurée, comme des images brutes sans aucune information textuelle. Concevoir un système d'analyse d'images de documents pratique est une tâche à la fois significative et complexe. Dans nos travaux précédents, nous avons proposé un système d'analyse de documents intelligent appelé PP-Structure. Afin d'améliorer davantage les fonctionnalités et les performances de PP-Structure, nous présentons dans ce travail PP-StructureV2, qui comprend deux sous-systèmes : l'extraction d'informations de mise en page et l'extraction d'informations clés.Tout d'abord, nous intégrons un module de correction de direction d'image et un module de restauration de mise en page pour renforcer les capacités du système. Ensuite, huit stratégies pratiques sont mises en œuvre dans PP-StructureV2 afin d'améliorer ses performances.Pour le modèle d'analyse de mise en page, nous introduisons le détecteur ultra-léger PP-PicoDet et l'algorithme de distillation de connaissances FGD (Feature Guidance Distillation) pour alléger le modèle, ce qui a permis d'accélérer la vitesse d'inférence par 11 fois tout en maintenant une mAP comparable.Pour le modèle de reconnaissance des tableaux, nous utilisons PP-LCNet, CSP-PAN et SLAHead pour optimiser respectivement le module principal, le module de fusion des caractéristiques et le module de décodage. Ces améliorations ont augmenté la précision de la structure des tableaux de 6 % tout en conservant une vitesse d'inférence comparable.Pour le modèle d'extraction d'informations clés, nous introduisons VI-LayoutXLM, une architecture LayoutXLM indépendante des caractéristiques visuelles, ainsi que l'algorithme de tri TB-YX et l'algorithme de distillation de connaissances U-DML (Unsupervised Deep Mutual Learning). Ces innovations ont apporté respectivement des améliorations de 2,8 % et 9,1 % sur l'Hmean des tâches de reconnaissance sémantique des entités et d'extraction des relations.Tous les modèles et codes mentionnés ci-dessus sont open-source dans le dépôt GitHub PaddleOCR.