PEneo : Unification de l’extraction de lignes, du regroupement de lignes et du lien d’entités pour l’extraction de paires de documents de bout en bout

L'extraction de paires de documents vise à identifier les entités clé et valeur ainsi que leurs relations dans des documents visuellement riches. La plupart des méthodes existantes divisent cette tâche en deux tâches distinctes : la reconnaissance d'entités sémantiques (SER) et l'extraction de relations (RE). Cependant, la simple concaténation de SER et RE en série peut entraîner une propagation sévère des erreurs et ne parvient pas à traiter des cas comme les entités sur plusieurs lignes dans des scénarios réels. Pour résoudre ces problèmes, cet article introduit un nouveau cadre, PEneo (Pair Extraction new decoder option), qui effectue l'extraction de paires de documents dans un pipeline unifié, intégrant trois sous-tâches simultanées : l'extraction de lignes, le regroupement de lignes et le lien d'entités. Cette approche atténue le problème d'accumulation des erreurs et peut gérer le cas des entités sur plusieurs lignes. De plus, pour évaluer plus efficacement les performances du modèle et faciliter les futures recherches en extraction de paires, nous présentons RFUND, une version réannotée des jeux de données couramment utilisés FUNSD et XFUND, afin de les rendre plus précises et couvrir des situations réalistes. Les expériences menées sur divers benchmarks démontrent la supériorité de PEneo par rapport aux pipelines précédents, améliorant considérablement les performances (par exemple, un score F1 de 19,89 % à 22,91 % sur RFUND-EN) lorsqu'il est combiné avec divers backbones tels que LiLT et LayoutLMv3, ce qui témoigne de son efficacité et sa généralité. Le code source et les nouvelles annotations sont disponibles à l'adresse suivante : https://github.com/ZeningLin/PEneo.