il y a 17 jours

Génération augmentée par récupération pour les tâches NLP intensives en connaissances

Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela

Voir les détails de l'article

Génération augmentée par récupération pour les tâches NLP intensives en connaissances

Résumé

Les grands modèles linguistiques préentraînés ont été montrés capables de stocker des connaissances factuelles dans leurs paramètres, et d’atteindre des résultats de pointe lorsqu’ils sont affinés sur des tâches NLP en aval. Toutefois, leur capacité à accéder et à manipuler précisément ces connaissances reste limitée, ce qui fait que, sur les tâches intensives en connaissances, leurs performances sont inférieures à celles des architectures spécifiques à la tâche. De plus, fournir une traçabilité des décisions prises par ces modèles et mettre à jour leur connaissance du monde restent des problèmes de recherche ouverts. Les modèles préentraînés intégrant un mécanisme d’accès différentiable à une mémoire explicite non paramétrique peuvent surmonter cette limitation, mais ils n’ont jusqu’à présent été étudiés que pour des tâches extractives en aval. Nous explorons une recette générale d’affinage pour les modèles de génération augmentée par récupération (RAG) — des modèles qui combinent une mémoire paramétrique préentraînée et une mémoire non paramétrique pour la génération de langage. Nous introduisons des modèles RAG où la mémoire paramétrique est un modèle seq2seq préentraîné et la mémoire non paramétrique est un index vectoriel dense de Wikipedia, accédé via un récupérateur neuronal préentraîné. Nous comparons deux formulations RAG : l’une conditionne la séquence générée entière sur les mêmes passages récupérés, l’autre permet d’utiliser des passages différents pour chaque mot. Nous affinons et évaluons nos modèles sur une large gamme de tâches NLP intensives en connaissances, établissant ainsi l’état de l’art sur trois tâches de question-réponse en domaine ouvert, surpassant à la fois les modèles seq2seq paramétriques et les architectures spécifiques à la tâche basées sur la récupération et l’extraction. Pour les tâches de génération de langage, nous constatons que les modèles RAG produisent un langage plus précis, plus diversifié et plus factuel qu’une base paramétrique seule de pointe.