Génération de graphes de connaissances à partir du texte

Dans cette étude, nous proposons un système novateur de génération de graphes de connaissances (Knowledge Graphs, KG) en plusieurs étapes à partir d'entrées textuelles, divisant le processus global en deux phases. Les nœuds du graphe sont d'abord générés à l'aide d'un modèle linguistique préentraîné, suivis par une tête simple de construction des arêtes, ce qui permet une extraction efficace de KG à partir du texte. Pour chaque étape, nous examinons plusieurs options architecturales qui peuvent être utilisées en fonction des ressources d'entraînement disponibles. Nous avons évalué le modèle sur un ensemble de données récent issu du défi WebNLG 2020, obtenant des performances comparables à celles de l'état de l'art pour la tâche de génération texte-RDF, ainsi que sur les ensembles de données New York Times (NYT) et TekGen à grande échelle, où il a montré une performance globale solide, surpassant les méthodes de base existantes. Nous pensons que le système proposé peut servir d'alternative viable à la construction de KG par rapport aux approches actuelles basées sur la linéarisation ou l'échantillonnage. Notre code est disponible sur https://github.com/IBM/Grapher.