17 天前

稀疏与连续注意力机制

André F. T. Martins, António Farinhas, Marcos Treviso, Vlad Niculae, Pedro M. Q. Aguiar, Mário A. T. Figueiredo
稀疏与连续注意力机制
摘要

指数族分布广泛应用于机器学习领域,涵盖连续和离散域中的多种分布(例如,高斯分布、狄利克雷分布、泊松分布以及通过Softmax变换得到的类别分布)。这些分布族中的每一类均具有固定的支撑集。相比之下,在有限离散域中,近期已有研究提出Softmax的稀疏替代方法(如Sparsemax和Alpha-Entmax),这类方法具有可变的支撑集,能够为无关类别分配零概率。本文从两个方向拓展了这一研究:首先,我们将Alpha-Entmax推广至连续域,揭示了其与Tsallis统计及变形指数族之间的联系;其次,我们提出了适用于连续域的注意力机制,并推导出在α ∈ {1, 2}时高效的梯度反向传播算法。在基于注意力的文本分类、机器翻译和视觉问答任务中的实验表明,该连续注意力机制可有效应用于一维和二维场景,实现对时间区间和紧凑空间区域的精准聚焦。