7 天前

语言模型是无监督多任务学习者

{Jeffrey Wu, Rewon Child, Ilya Sutskever, David Luan, Alec Radford, Dario Amodei}
摘要

自然语言处理任务,如问答、机器翻译、阅读理解与摘要生成,通常通过在特定任务数据集上采用监督学习方法来实现。我们证明,当在一项包含数百万网页的新数据集——WebText上进行训练时,语言模型无需任何显式监督即可开始学习这些任务。在给定文档和问题作为条件的情况下,该语言模型生成的答案在CoQA数据集上达到了55的F1分数,其性能与现有四种基线系统中的三种相当,甚至超过其中三种,且完全未使用超过12.7万个训练样本。语言模型的容量对于零样本任务迁移的成功至关重要,且随着模型容量的增加,其在各类任务上的性能呈对数线性提升。我们最大的模型GPT-2是一个拥有15亿参数的Transformer模型,在零样本设置下,于8个测试的语言建模数据集中取得了7个的最先进结果,但仍未能充分拟合WebText数据。模型生成的样本反映出这些性能提升,其输出包含结构连贯的文本段落。这些发现表明,通过利用自然语言中固有的示范实例来学习执行任务,是一条极具前景的语言处理系统构建路径。

语言模型是无监督多任务学习者 | 最新论文 | HyperAI超神经