Knowledge-in-Context : Vers des modèles linguistiques semi-paramétriques dotés de connaissances

Les modèles linguistiques entièrement paramétriques nécessitent généralement un très grand nombre de paramètres pour stocker les connaissances nécessaires à la résolution de multiples tâches du langage naturel dans des scénarios à zéro ou peu d’exemples (zero/few-shot). En outre, il est difficile de s’adapter aux évolutions du savoir mondial sans recourir à une re-formation coûteuse du modèle. Dans cet article, nous proposons une nouvelle architecture de modèle linguistique semi-paramétrique, appelée Knowledge-in-Context (KiC), qui confère à un modèle paramétrique textuel-to-textuel une mémoire externe riche en connaissances. Plus précisément, cette mémoire externe contient six types différents de connaissances : entités, dictionnaires, connaissances courantes, événements, scripts et connaissances causales. Pour chaque instance d’entrée, le modèle KiC sélectionne de manière adaptative un type de connaissance et récupère les éléments les plus pertinents. L’instance d’entrée, enrichie de ces connaissances, est ensuite introduite dans un modèle textuel-to-textuel (par exemple, T5) afin de générer la réponse de sortie, les entrées et sorties étant toutes deux sous forme de langage naturel après application d’un prompt. De manière intéressante, nous observons que KiC peut être interprété comme un cas particulier de modèle à mélanges d’experts (mixture-of-experts, MoE), dans lequel le sélecteur de connaissances joue le rôle d’un routeur déterminant l’affectation séquence-expert dans le cadre de MoE. Cette observation clé nous a inspirés à développer un nouvel algorithme d’entraînement pour KiC, basé sur un sélecteur de connaissances adaptatif aux instances. En tant que modèle semi-paramétrique riche en connaissances, KiC n’a besoin que d’une partie paramétrique beaucoup plus petite pour atteindre des performances supérieures en situation de zéro-exemple sur des tâches inédites. En évaluant sur plus de 40 tâches différentes, nous montrons que KiC_Large, avec seulement 770 millions de paramètres, surpasser largement les grands modèles linguistiques (LMs) 4 à 39 fois plus volumineux. Nous démontrons également que KiC manifeste des capacités émergentes à une échelle de modèle bien plus réduite que les modèles entièrement paramétriques.