KAMEL : Analyse de connaissances avec des entités multitokens dans les modèles linguistiques

Les modèles de langage à grande échelle (LM) ont démontré leur capacité à capturer une quantité importante de connaissances relationnelles à partir du corpus d’entraînement préalable. Ces modèles peuvent être sondés afin d’évaluer leur connaissance factuelle en utilisant des prompts de type cloze, comme illustré sur la base de benchmark LAMA. Toutefois, des études récentes ont révélé que les performances observées ne reflètent pas nécessairement une véritable compréhension des faits, mais plutôt une capacité à formuler des devinettes éclairées ou à rappeler des informations directement présentes dans les données d’entraînement. Nous proposons une nouvelle base de données de benchmark, KAMEL, fondée sur Wikidata, destinée à sonder les connaissances relationnelles des LM. Contrairement aux bases précédentes, KAMEL couvre un éventail plus large de connaissances, permet de sonder des entités à un seul token comme à plusieurs tokens, et inclut des faits comportant des valeurs littérales. En outre, la procédure d’évaluation est plus précise, car la base inclut des étiquettes alternatives pour les entités et prend en compte des relations à cardinalité élevée. Plutôt que d’évaluer les modèles sur des modèles de langage masqués, nous présentons des résultats obtenus sur une variété de récents modèles de langage causaux dans un cadre à peu de exemples (few-shot). Nos résultats montrent que, bien que les nouveaux modèles obtiennent des performances prometteuses sur LAMA (F1-score de 52,90 %), leurs performances sur KAMEL sont nettement plus faibles (17,62 %). Notre analyse révèle que même les grands modèles de langage sont loin de pouvoir mémoriser l’ensemble des formes de connaissances relationnelles habituellement stockées dans des graphes de connaissances.