11 天前

MPNN与图Transformer之间的联系

Chen Cai, Truong Son Hy, Rose Yu, Yusu Wang
MPNN与图Transformer之间的联系
摘要

图变换器(Graph Transformer, GT)最近作为一种新型图学习算法范式出现,在多个基准测试中表现优于此前广受欢迎的消息传递神经网络(Message Passing Neural Network, MPNN)。先前的研究(Kim 等,2022)表明,通过引入适当的位置编码,GT 可以任意逼近 MPNN,这意味着 GT 至少与 MPNN 具有同等表达能力。本文研究了这一关系的逆向联系,证明了带有虚拟节点(Virtual Node, VN)的消息传递神经网络——一种广泛使用但缺乏充分理论支撑的启发式方法——其表达能力足以任意逼近 GT 中的自注意力(self-attention)层。具体而言,我们首先证明:若考虑一类特定的线性变换器,即 Performer/线性变换器(Performer/Linear Transformer)(Choromanski 等,2020;Katharopoulos 等,2020),则仅需 O(1) 深度与 O(1) 宽度的 MPNN + VN 即可逼近 Performer/线性变换器中的自注意力层。其次,通过建立 MPNN + VN 与 DeepSets 之间的联系,我们进一步证明:当 MPNN + VN 的宽度为 O(n^d)、深度为 O(1) 时(其中 d 为输入特征维度),其可任意逼近自注意力层。最后,在若干合理假设下,我们给出了一个显式的构造方法,证明存在宽度为 O(1)、深度为 O(n) 的 MPNN + VN 架构,能够任意逼近 GT 中的自注意力层。在实验方面,我们验证了以下三点:1)MPNN + VN 是一个出人意料的强大基线模型,在近期提出的长程图基准数据集 Long Range Graph Benchmark(LRGB)上表现优于 GT;2)我们的 MPNN + VN 在一系列 OGB 数据集上显著优于早期实现版本;3)在气候建模任务中,MPNN + VN 的性能优于线性变换器与传统 MPNN。综上,本研究揭示了 MPNN + VN 在表达能力上的强大潜力,为理解其在复杂图学习任务中的有效性提供了新的理论视角。