KGPT : Pré-formation basée sur les connaissances pour la génération de texte à partir de données

La génération de texte à partir de données a récemment suscité un intérêt considérable en raison de ses nombreuses applications. Les méthodes existantes ont montré des performances impressionnantes sur une variété de tâches. Cependant, elles dépendent d'une quantité importante de données étiquetées pour chaque tâche, ce qui est coûteux à obtenir et limite ainsi leur application à de nouvelles tâches et domaines. Dans cet article, nous proposons d'exploiter l'apprentissage préalable (pre-training) et le transfert d'apprentissage pour résoudre ce problème. Nous introduisons un apprentissage préalable basé sur la connaissance (Knowledge-Grounded Pre-Training, KPGT), qui comprend deux parties : 1) un modèle général de génération basé sur la connaissance pour produire du texte enrichi en connaissances ; 2) un paradigme d'apprentissage préalable sur un corpus massif de texte basé sur la connaissance extrait du web. Le modèle pré-entraîné peut être affiné (fine-tuned) sur diverses tâches de génération de texte à partir de données pour produire du texte spécifique à la tâche. Nous évaluons son efficacité dans trois configurations : entièrement supervisée, zéro-shot (sans exemple), et few-shot (avec peu d'exemples). Dans le cadre entièrement supervisé, notre modèle obtient des gains remarquables par rapport aux modèles de référence connus. Dans le cadre zéro-shot, notre modèle atteint plus de 30 ROUGE-L sur WebNLG sans avoir vu aucun exemple, tandis que tous les autres modèles de référence échouent. Dans le cadre few-shot, notre modèle n'a besoin que d'environ un cinquième du nombre d'exemples étiquetés nécessaires pour atteindre le même niveau de performance que les modèles de référence. Ces expériences prouvent constamment la forte capacité de généralisation de notre cadre proposé.Pour plus d'informations, veuillez consulter le dépôt GitHub suivant : https://github.com/wenhuchen/KGPT.