2 个月前
DeepStruct:用于结构预测的语言模型预训练
Chenguang Wang; Xiao Liu; Zui Chen; Haoyun Hong; Jie Tang; Dawn Song

摘要
我们提出了一种提高语言模型结构理解能力的方法。与以往通过任务特定增强来微调模型的方法不同,我们在一组任务无关的语料库上预训练语言模型,以从文本中生成结构。我们的结构预训练使模型所学到的结构知识能够实现零样本迁移。我们在这种方法上研究了其在28个数据集上的性能,这些数据集涵盖了10项结构预测任务,包括开放信息抽取、联合实体和关系抽取、命名实体识别、关系分类、语义角色标注、事件抽取、共指消解、事实探测、意图检测和对话状态跟踪。此外,我们还通过任务特定的训练集进一步增强了预训练过程。实验结果表明,一个参数量为100亿的语言模型能够在大多数任务上实现非平凡的迁移,并在我们评估的28个数据集中有21个达到了当前最佳性能。