REALM : Pré-entraînement des modèles linguistiques augmentés par récupération

La pré-formation des modèles de langage s'est révélée capable de capturer une quantité surprenante de connaissances mondiales, essentielles pour des tâches de traitement du langage naturel telles que la réponse aux questions. Toutefois, ces connaissances sont stockées de manière implicite dans les paramètres d’un réseau neuronal, ce qui nécessite des réseaux de plus en plus volumineux pour couvrir un plus grand nombre de faits.Afin de capturer ces connaissances de manière plus modulaire et interprétable, nous enrichissons la pré-formation des modèles de langage avec un récupérateur de connaissances latent, permettant au modèle de récupérer et d’atténuer des documents provenant d’un grand corpus tel que Wikipedia, durant la pré-formation, la fine-tuning et l’inférence. Pour la première fois, nous montrons comment pré-entraîner un tel récupérateur de manière non supervisée, en utilisant le modèle de langage masqué comme signal d’apprentissage et en effectuant la rétropropagation à travers une étape de récupération prenant en compte des millions de documents.Nous démontrons l’efficacité de la pré-formation des modèles de langage augmentée par la récupération (REALM) en la fine-tunant sur la tâche exigeante de réponse aux questions dans un domaine ouvert (Open-QA). En la comparant aux meilleurs modèles actuels, qu’ils stockent explicitement ou implicitement les connaissances, sur trois benchmarks populaires de Open-QA, nous constatons que notre approche dépasse toutes les méthodes précédentes avec une marge significative (de 4 à 16 % de précision absolue), tout en offrant des avantages qualitatifs tels qu’une meilleure interprétabilité et une architecture modulaire.