11 天前

通过显式关系编码增强Transformer以解决数学问题

Imanol Schlag, Paul Smolensky, Roland Fernandez, Nebojsa Jojic, Jürgen Schmidhuber, Jianfeng Gao

摘要

我们将在Transformer架构中引入张量积表示（Tensor-Product Representations），以更有效地支持关系结构的显式建模。我们的张量积Transformer（TP-Transformer）在近期推出的数学数据集上取得了新的最先进性能，该数据集包含56类自由形式的数学应用题。模型的核心组件是一种新型注意力机制，称为TP-Attention，它能够显式编码每个Transformer单元与其通过注意力机制所获取值的其他单元之间的关系。与传统的线性组合方式不同，TP-Attention通过非线性方式整合检索到的值，增强了表征构建能力，并有效缓解了多层标准注意力机制带来的歧义问题。TP-Transformer的注意力可视化图谱为理解其解决数学数据集复杂问题的机制提供了更深入的洞察。相关预训练模型与代码将在论文发表后公开。