HyperAIHyperAI
il y a 2 mois

KnowCoder : Codage de connaissances structurées dans les LLMs pour l'extraction universelle d'informations

Zixuan Li; Yutao Zeng; Yuxin Zuo; Weicheng Ren; Wenxuan Liu; Miao Su; Yucan Guo; Yantao Liu; Xiang Li; Zhilei Hu; Long Bai; Wei Li; Yidan Liu; Pan Yang; Xiaolong Jin; Jiafeng Guo; Xueqi Cheng
KnowCoder : Codage de connaissances structurées dans les LLMs pour l'extraction universelle d'informations
Résumé

Dans cet article, nous proposons KnowCoder, un grand modèle de langage (LLM) conçu pour effectuer l'extraction universelle d'informations (UIE) par génération de code. KnowCoder vise à développer une représentation schématique unifiée que les LLM peuvent facilement comprendre, ainsi qu'un cadre d'apprentissage efficace qui encourage les LLM à suivre des schémas et à extraire des connaissances structurées avec précision. Pour atteindre ces objectifs, KnowCoder introduit une méthode de représentation schématique en style de code permettant de transformer uniformément différents schémas en classes Python, ce qui permet de capturer des informations schématiques complexes, telles que les contraintes entre les tâches dans l'UIE, d'une manière compatible avec les LLM. Nous avons également construit une bibliothèque de schémas en style de code couvrant plus de 30 000 types de connaissances, qui est la plus grande pour l'UIE, selon nos connaissances. Pour faciliter le processus d'apprentissage des LLM, KnowCoder intègre un cadre d'apprentissage en deux phases qui renforce sa capacité à comprendre les schémas grâce à un pré-apprentissage sur du code et sa capacité à suivre les schémas grâce à un ajustement par instructions. Après un pré-apprentissage sur environ 1,5 milliard de données construites automatiquement, KnowCoder acquiert déjà une remarquable capacité de généralisation et réalise des améliorations relatives de 49,8% en F1 par rapport à LLaMA2 dans le cadre d'apprentissage supervisé avec peu d'exemples. Après l'ajustement par instructions, KnowCoder montre encore une forte capacité de généralisation sur des schémas inconnus et atteint jusqu'à 12,5% et 21,9% d'amélioration par rapport aux meilleures méthodes actuelles sous les conditions zéro-shot et faibles ressources respectivement. De plus, grâce à nos représentations schématiques unifiées, divers jeux de données annotés manuellement peuvent être utilisés simultanément pour affiner KnowCoder, ce qui entraîne des améliorations significatives allant jusqu'à 7,5% sous le régime supervisé.

KnowCoder : Codage de connaissances structurées dans les LLMs pour l'extraction universelle d'informations | Articles de recherche récents | HyperAI