17 天前
MATE:用于表格变换器效率的多视角注意力
Julian Martin Eisenschlos, Maharshi Gor, Thomas Müller, William W. Cohen

摘要
本文提出了一种稀疏注意力Transformer架构——MATE,用于建模包含大型表格的文档。网页中的表格无处不在,且蕴含丰富信息。然而,据Cafarella等人(2008)的研究,超过20%的网络关系型表格包含20行或更多行,这类大型表格对当前Transformer模型构成了挑战,因为主流模型通常将输入长度限制在512个标记以内。为此,本文提出MATE,一种专为建模网页表格结构而设计的新颖Transformer架构。MATE通过稀疏注意力机制,使模型的不同注意力头能够高效地聚焦于表格的行或列。该架构在速度和内存占用方面均实现线性扩展,可在当前加速硬件上处理包含超过8000个标记的文档。此外,MATE对表格数据具有更合理的归纳偏置,在三个表格推理数据集上均取得了新的最先进性能。在包含大型文档与表格的HybridQA数据集(Chen等,2020b)上,MATE相较于先前最优结果提升了19个百分点。