2 个月前

高效注意力机制:线性复杂度的注意力模型

Zhuoran Shen; Mingyuan Zhang; Haiyu Zhao; Shuai Yi; Hongsheng Li
高效注意力机制:线性复杂度的注意力模型
摘要

点积注意力在计算机视觉和自然语言处理中有着广泛的应用。然而,其内存和计算成本随着输入规模的增加而呈二次增长。这种增长限制了其在高分辨率输入上的应用。为了解决这一缺点,本文提出了一种新型高效的注意力机制,该机制在保持与点积注意力等效的同时,显著降低了内存和计算成本。资源效率的提高使得注意力模块可以更广泛且灵活地集成到网络中,从而提高了模型的准确性。实证评估证明了其优势的有效性。高效的注意力模块在MS-COCO 2017数据集上显著提升了目标检测器和实例分割器的性能。此外,资源效率的提升使得复杂的模型也能使用注意力机制,而在这些模型中,高昂的成本通常会禁止使用点积注意力。以立体深度估计为例,在Scene Flow数据集上,一种具有高效注意力机制的模型达到了最先进的精度。代码可在https://github.com/cmsflash/efficient-attention 获取。

高效注意力机制:线性复杂度的注意力模型 | 最新论文 | HyperAI超神经