Décodage enrichi par des connaissances

Les modèles pré-entraînés de langage (LM) ont démontré une capacité à mémoriser une quantité importante de connaissances provenant des corpus d’entraînement préalable ; toutefois, ils restent limités dans leur capacité à rappeler des connaissances factuelles dans un contexte donné. En conséquence, ils sont sujets à générer des contenus contrafactuels ou hallucinatoires lorsqu’ils sont utilisés dans des tâches de génération de langage naturel (NLG) intensives en connaissances. Les solutions récentes à ce problème se concentrent sur la modification des objectifs d’entraînement préalable ou de l’ajustement fin (fine-tuning) pour intégrer des connaissances, ce qui nécessite généralement un entraînement supplémentaire coûteux ou des modifications d’architecture des LM, rendant leur application pratique complexe. Nous proposons Knowledge Infused Decoding (KID), un nouvel algorithme de décodage pour les modèles génératifs de langage, qui intègre dynamiquement des connaissances externes à chaque étape du processus de décodage du LM. Plus précisément, nous maintenons une mémoire locale de connaissances basée sur le contexte courant, en interaction avec un arbre de connaissances externe créé dynamiquement, et mettons continuellement à jour cette mémoire locale comme une contrainte consciente des connaissances afin de guider le décodage via l’apprentissage par renforcement. Sur six tâches diverses de NLG intensives en connaissances, des modèles agnostiques aux tâches (par exemple GPT-2 et BART) équipés de KID surpassent de nombreux modèles d’état de l’art spécifiquement optimisés pour chaque tâche, et affichent une performance particulièrement remarquable dans des scénarios à faible nombre d’exemples, surpassant sept techniques connexes d’infusion de connaissances. Une évaluation humaine confirme la capacité de KID à générer un langage plus pertinent et factuel par rapport au contexte d’entrée, comparé à plusieurs références. Enfin, KID atténue également le biais d’exposition et assure une qualité de génération stable lors de la production de séquences plus longues. Le code source de KID est disponible à l’adresse suivante : https://github.com/microsoft/KID.