9 天前

OmniNet:基于Transformer的全向表示

Yi Tay, Mostafa Dehghani, Vamsi Aribandi, Jai Gupta, Philip Pham, Zhen Qin, Dara Bahri, Da-Cheng Juan, Donald Metzler
OmniNet:基于Transformer的全向表示
摘要

本文提出了一种基于Transformer的全向表征模型——OmniNet。在OmniNet中,每个Token不再局限于传统的水平感受野,而是被允许关注网络中所有其他Token,从而实现对整个网络宽度与深度的全局信息交互。这一机制可被理解为一种极端或高强度的注意力机制,其感受野覆盖整个网络的全部空间维度。为实现这一全向注意力,模型采用一个元学习器(meta-learner)来学习注意力权重,该元学习器本质上是一个基于自注意力机制的模型。为缓解全感受野注意力带来的高计算开销,本文引入高效的自注意力机制作为元学习器,包括基于核函数的方法(Choromanski 等)、低秩注意力(Wang 等)以及 Big Bird(Zaheer 等)等。在自回归语言建模(LM1B、C4)、机器翻译、长程依赖基准测试(Long Range Arena, LRA)以及图像识别等多个任务上进行了大量实验。结果表明,OmniNet在各项任务中均取得了显著提升,尤其在LM1B、WMT’14 En-De/En-Fr以及Long Range Arena任务上达到了当前最优(state-of-the-art)性能。此外,在视觉Transformer(Vision Transformer)中引入全向表征,显著提升了图像识别任务的表现,无论是在少样本学习(few-shot learning)还是微调(fine-tuning)设置下均展现出明显优势。