Synthèse d’un jeu de données pour la génération de texte à partir de graphes de connaissances dans un domaine général, sans ontologie, en utilisant un grand modèle linguistique

La génération de texte à partir de graphes de connaissances (G2T) consiste à transformer des graphes de connaissances structurés en texte naturel. Les récents progrès dans les modèles linguistiques préentraînés (PLMs) ont amélioré les performances de la G2T, mais leur efficacité dépend de jeux de données avec une alignement précis entre les graphes et le texte. Cependant, la rareté de jeux de données de grande qualité pour la génération G2T dans des domaines généraux entrave les avancées dans cette recherche. Pour remédier à ce problème, nous présentons le jeu de données Wikipedia Ontology-Free Graph-text (WikiOFGraph), un nouveau jeu de données G2T à grande échelle généré par une méthode innovante qui utilise un grand modèle linguistique (LLM) et Data-QuestEval. Notre nouveau jeu de données, qui contient 5,85 millions de paires graphe-texte dans des domaines généraux, offre une haute cohérence entre les graphes et le texte sans dépendre d'ontologies externes. Les résultats expérimentaux montrent que les PLMs affinés sur WikiOFGraph surpassent ceux formés sur d'autres jeux de données selon diverses métriques d'évaluation. Notre méthode se révèle être une solution évolutique et efficace pour générer des données G2T de haute qualité, contribuant ainsi considérablement à l'avancement du domaine de la génération G2T.