Une étude complète de l'édition des connaissances pour les grands modèles linguistiques

Les grands modèles linguistiques (Large Language Models, LLM) ont démontré des capacités exceptionnelles en matière de compréhension et de génération de texte, reproduisant de manière remarquable la communication humaine. Toutefois, une limitation majeure réside dans les exigences computationnelles importantes liées à leur entraînement, dues à leur paramétrage massif. Ce défi est encore amplifié par la nature dynamique du monde, qui impose des mises à jour fréquentes des LLM afin de corriger des informations obsolètes ou d’intégrer de nouvelles connaissances, garantissant ainsi leur pertinence continue. Il convient de noter que de nombreuses applications nécessitent des ajustements continus du modèle après l’entraînement, afin de corriger des lacunes ou des comportements indésirables. Un intérêt croissant se porte donc sur des méthodes efficaces et légères permettant de modifier les modèles en temps réel. À cet effet, les dernières années ont vu émerger un nombre croissant de techniques d’édition des connaissances pour les LLM, dont l’objectif est d’ajuster efficacement le comportement des modèles dans des domaines spécifiques tout en préservant leurs performances globales sur diverses entrées. Dans cet article, nous définissons d’abord le problème d’édition des connaissances, puis proposons un examen approfondi des approches les plus récentes. Inspirés par les théories de l’enseignement et de la cognition, nous proposons un critère de catégorisation unifié qui classe les méthodes d’édition des connaissances en trois catégories : recourir à des connaissances externes, intégrer des connaissances dans le modèle, et modifier directement les connaissances intrinsèques. Par ailleurs, nous introduisons un nouveau benchmark, KnowEdit, afin d’évaluer de manière exhaustive les approches représentatives d’édition des connaissances. Nous fournissons également une analyse approfondie de la localisation des connaissances, permettant une compréhension plus fine des structures de connaissance inhérentes aux LLM. Enfin, nous discutons plusieurs applications potentielles de l’édition des connaissances, en soulignant ses implications larges et significatives.