
摘要
受控的表格到文本生成旨在为表格中突出显示的子部分生成自然语言描述。以往的最先进(SOTA)系统仍采用序列到序列的生成方法,仅将表格视为线性结构,在表格布局发生变化时表现脆弱。为突破这一范式,本文提出两个关键目标:(1)有效表达表格中各内容单元之间的关系;(2)使模型对与内容无关的结构变换具有鲁棒性。为此,我们提出一种等变学习框架,通过一种结构感知的自注意力机制对表格进行编码。该机制将完整的自注意力结构简化为一种与顺序无关的图注意力结构,能够捕捉同一行或同一列中单元格之间的连通图结构,并从结构角度区分相关单元格与无关单元格。此外,我们的框架还对位置编码机制进行了改进,以保留同一单元格内标记之间的相对位置关系,同时在不同单元格之间强制实现位置不变性。该技术可无缝集成至现有的表格到文本生成模型中,在ToTTo和HiTab数据集上均显著提升了基于T5的模型性能。尤其在ToTTo的更难版本上,我们的方法保持了优异的性能表现,而此前的SOTA系统即使采用基于变换的数据增强策略,也出现了显著的性能下降。相关代码已开源,地址为:https://github.com/luka-group/Lattice。