2 个月前

DeepStruct：用于结构预测的语言模型预训练

Chenguang Wang; Xiao Liu; Zui Chen; Haoyun Hong; Jie Tang; Dawn Song

摘要

我们提出了一种提高语言模型结构理解能力的方法。与以往通过任务特定增强来微调模型的方法不同，我们在一组任务无关的语料库上预训练语言模型，以从文本中生成结构。我们的结构预训练使模型所学到的结构知识能够实现零样本迁移。我们在这种方法上研究了其在28个数据集上的性能，这些数据集涵盖了10项结构预测任务，包括开放信息抽取、联合实体和关系抽取、命名实体识别、关系分类、语义角色标注、事件抽取、共指消解、事实探测、意图检测和对话状态跟踪。此外，我们还通过任务特定的训练集进一步增强了预训练过程。实验结果表明，一个参数量为100亿的语言模型能够在大多数任务上实现非平凡的迁移，并在我们评估的28个数据集中有21个达到了当前最佳性能。