GeoLayoutLM : Pré-entraînement géométrique pour l'extraction d'informations visuelles

L'extraction d'informations visuelles (VIE) joue un rôle important dans l'intelligence documentaire. Généralement, elle est divisée en deux tâches : la reconnaissance d'entités sémantiques (SER) et l'extraction de relations (RE). Récemment, les modèles pré-entraînés pour les documents ont réalisé des progrès substantiels en VIE, particulièrement en SER. Cependant, la plupart des modèles existants apprennent la représentation géométrique de manière implicite, ce qui a été jugé insuffisant pour la tâche RE, car les informations géométriques sont particulièrement cruciales pour cette tâche. De plus, nous révélons un autre facteur qui limite les performances de RE : le fossé objectif entre la phase de pré-entraînement et la phase d'affinage pour RE. Pour résoudre ces problèmes, nous proposons dans cet article un cadre multi-modale nommé GeoLayoutLM pour l'VIE.GeoLayoutLM modèle explicitement les relations géométriques lors du pré-entraînement, que nous appelons le pré-entraînement géométrique. Le pré-entraînement géométrique est réalisé par trois tâches de pré-entraînement spécialement conçues et liées à la géométrie. En outre, des têtes de relation novatrices sont soigneusement conçues ; elles sont pré-entraînées par les tâches de pré-entraînement géométrique et affinées pour RE afin d'enrichir et d'améliorer la représentation des caractéristiques. Selon une série d'expériences approfondies sur des benchmarks standard en VIE, GeoLayoutLM obtient des scores très compétitifs en SER et dépasse considérablement les précédents états de l'art pour RE (par exemple, le score F1 de RE sur FUNSD passe de 80,35 % à 89,45 %). Le code source et les modèles sont librement accessibles à l'adresse suivante : https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayoutLM