il y a 2 mois

Atlas : Apprentissage à partir de quelques exemples avec des modèles de langage augmentés par la recherche

Gautier Izacard; Patrick Lewis; Maria Lomeli; Lucas Hosseini; Fabio Petroni; Timo Schick; Jane Dwivedi-Yu; Armand Joulin; Sebastian Riedel; Edouard Grave

Voir les détails de l'article

Atlas : Apprentissage à partir de quelques exemples avec des modèles de langage augmentés par la recherche

Résumé

Les grands modèles de langage ont montré des résultats impressionnants en few-shot learning sur une large gamme de tâches. Cependant, lorsque la connaissance est essentielle pour ces résultats, comme c'est le cas pour les tâches de réponse à des questions et de vérification de faits, il semble nécessaire d'avoir un nombre massif de paramètres pour stocker cette connaissance. Les modèles augmentés par la recherche sont connus pour exceller dans les tâches intensives en connaissance sans nécessiter autant de paramètres, mais il n'est pas clair s'ils fonctionnent efficacement dans des contextes de few-shot learning. Dans ce travail, nous présentons Atlas, un modèle de langage augmenté par la recherche soigneusement conçu et pré-entraîné, capable d'apprendre des tâches intensives en connaissance avec très peu d'exemples d'entraînement. Nous effectuons des évaluations sur une large gamme de tâches, notamment MMLU, KILT et NaturalQuestions, et étudions l'impact du contenu de l'index de documents, démontrant qu'il peut être facilement mis à jour. Notamment, Atlas atteint plus de 42% de précision sur Natural Questions en utilisant seulement 64 exemples, surpassant un modèle doté de 540 milliards de paramètres (540B) de 3% malgré un nombre 50 fois inférieur de paramètres.