17 天前
利用中间表示解锁预训练模型中的组合泛化能力
Jonathan Herzig, Peter Shaw, Ming-Wei Chang, Kelvin Guu, Panupong Pasupat, Yuan Zhang

摘要
序列到序列(seq2seq)模型在语义解析任务中广泛应用,但其在分布外组合泛化(out-of-distribution compositional generalization)方面表现不佳。尽管已有研究提出专用模型架构或对seq2seq模型进行预训练以缓解该问题,但前者往往以牺牲模型通用性为代价,而后者仅取得有限成效。本文不改变模型架构,深入研究了中间表示(intermediate representations)对预训练seq2seq模型组合泛化能力的影响,并识别出设计有效表示的关键要素。我们摒弃了直接将自然语言映射为可执行形式的传统做法,转而将其映射到一种可逆或有损的中间表示,该表示与自然语言具有更强的结构对应关系。实验结果表明,所提出的中间表示与预训练模型相结合,效果出人意料地显著:在CFQ数据集上取得了新的最先进性能(准确率提升14.8个百分点),在三个文本到SQL数据集的模板划分(template-splits)上准确率提升达15.0至19.4个百分点。本研究强调,中间表示为提升预训练seq2seq模型的组合泛化能力提供了一个重要且可能被长期忽视的自由度。