17 天前

通过生成式预训练提升语言理解能力

{Tim Salimans, Ilya Sutskever, Alec Radford, Karthik Narasimhan}
摘要

自然语言理解涵盖了一系列多样化的任务,包括文本蕴含判断、问答、语义相似性评估以及文档分类等。尽管大规模未标注文本语料库极为丰富,但用于学习这些特定任务的标注数据却十分稀缺,这使得判别式训练模型难以达到理想性能。我们证明,通过在多样化未标注文本语料库上对语言模型进行生成式预训练,随后在每个具体任务上进行判别式微调,可以在这些任务上实现显著提升。与以往方法不同,我们在微调阶段引入了任务感知的输入转换机制,在几乎不改变模型架构的前提下,实现了高效的迁移学习。我们在广泛的自然语言理解基准测试中验证了该方法的有效性。所提出的通用、任务无关的模型在12项任务中的9项上超越了为特定任务专门设计架构的判别式模型,显著提升了当前最优水平。例如,在常识推理任务(Stories Cloze Test)上实现8.9%的绝对性能提升,在问答任务(RACE)上提升5.7%,在文本蕴含任务(MultiNLI)上提升1.5%。

通过生成式预训练提升语言理解能力 | 最新论文 | HyperAI超神经