2 个月前

阿特拉斯：基于检索增强的语言模型的少样本学习

Gautier Izacard; Patrick Lewis; Maria Lomeli; Lucas Hosseini; Fabio Petroni; Timo Schick; Jane Dwivedi-Yu; Armand Joulin; Sebastian Riedel; Edouard Grave

查看论文详情

摘要

大型语言模型在各种任务上展示了令人印象深刻的小样本学习结果。然而，当知识对于这些结果至关重要时，例如问答和事实核查任务，似乎需要庞大的参数量来存储知识。检索增强模型已知在不需要如此多参数的情况下，能够出色地完成知识密集型任务，但它们是否适用于小样本设置仍不清楚。在这项工作中，我们介绍了Atlas，这是一种精心设计并预训练的检索增强语言模型，能够在仅有少量训练样本的情况下学习知识密集型任务。我们在一系列任务上进行了评估，包括MMLU、KILT和NaturalQuestions，并研究了文档索引内容的影响，表明其可以轻松更新。值得注意的是，Atlas仅使用64个样例就在NaturalQuestions上达到了超过42%的准确率，尽管其参数量仅为540亿参数模型的1/50，但仍比后者高出3个百分点。