HyperAIHyperAI
il y a 17 jours

GenIE : Extraction d'information générative

Martin Josifoski, Nicola De Cao, Maxime Peyrard, Fabio Petroni, Robert West
GenIE : Extraction d'information générative
Résumé

Une représentation structurée et fondée du texte est généralement formalisée par l'extraction d'information fermée, un problème consistant à extraire un ensemble exhaustif de triplets (sujet, relation, objet) cohérents avec un ensemble prédéfini d'entités et de relations issu d'un schéma de base de connaissances. La plupart des travaux existants reposent sur des chaînes de traitement (pipeline) sujets à l'accumulation d'erreurs, et toutes les approches actuelles ne sont applicables qu'à un nombre irréaliste de petites entités et relations. Nous introduisons GenIE (extraction d'information générative), la première formulation end-to-end autoregressive de l'extraction d'information fermée. GenIE exploite naturellement les connaissances linguistiques des transformateurs pré-entraînés en générant de manière autoregressive les relations et entités sous forme textuelle. Grâce à une nouvelle stratégie de génération à deux niveaux avec contraintes, seuls les triplets cohérents avec le schéma de base de connaissances prédéfini sont produits. Nos expériences montrent que GenIE atteint l'état de l'art en extraction d'information fermée, généralise à partir d'un nombre moindre de points d'apprentissage que les méthodes de référence, et s'étend à un nombre d'entités et de relations auparavant inaccessibles. Grâce à ce travail, l'extraction d'information fermée devient pratique dans des scénarios réalistes, ouvrant ainsi de nouvelles perspectives pour les tâches ultérieures. Enfin, ce travail pave la voie vers une approche unifiée end-to-end pour les tâches fondamentales de l'extraction d'information. Le code, les données et les modèles sont disponibles à l'adresse suivante : https://github.com/epfl-dlab/GenIE.

GenIE : Extraction d'information générative | Articles de recherche récents | HyperAI