Génération de structure unifiée pour l’extraction universelle d’informations

L'extraction d'informations est confrontée à des cibles variables, des structures hétérogènes et des schémas spécifiques aux besoins. Dans cet article, nous proposons un cadre de génération unifié texte-structure, appelé UIE (Unified Information Extraction), capable de modéliser de manière universelle différentes tâches d'extraction d'informations (IE), de générer de manière adaptative les structures cibles et d'apprendre de manière collaborative les capacités générales d'IE à partir de différentes sources de connaissances. Plus précisément, UIE encode uniformément différentes structures d'extraction grâce à un langage structuré d'extraction, génère les extractions cibles de manière adaptative via un mécanisme basé sur des schémas - instructeur structuré de schéma (structural schema instructor) - et capture les capacités communes d'IE par le biais d'un modèle pré-entraîné à grande échelle pour la génération texte-structure. Les expériences montrent que UIE a atteint des performances de pointe sur 4 tâches d'IE, 13 ensembles de données, et dans tous les cadres supervisés, à ressources limitées et avec peu d'exemples pour une gamme étendue de tâches d'extraction d'entités, relations, événements et sentiments ainsi que leur unification. Ces résultats ont vérifié l'efficacité, l'universalité et la transférabilité de UIE.