HyperAIHyperAI

Command Palette

Search for a command to run...

稀疏与连续注意力机制

André F. T. Martins António Farinhas Marcos Treviso Vlad Niculae Pedro M. Q. Aguiar Mário A. T. Figueiredo

摘要

指数族分布广泛应用于机器学习领域,涵盖连续和离散域中的多种分布(例如,高斯分布、狄利克雷分布、泊松分布以及通过Softmax变换得到的类别分布)。这些分布族中的每一类均具有固定的支撑集。相比之下,在有限离散域中,近期已有研究提出Softmax的稀疏替代方法(如Sparsemax和Alpha-Entmax),这类方法具有可变的支撑集,能够为无关类别分配零概率。本文从两个方向拓展了这一研究:首先,我们将Alpha-Entmax推广至连续域,揭示了其与Tsallis统计及变形指数族之间的联系;其次,我们提出了适用于连续域的注意力机制,并推导出在α ∈ {1, 2}时高效的梯度反向传播算法。在基于注意力的文本分类、机器翻译和视觉问答任务中的实验表明,该连续注意力机制可有效应用于一维和二维场景,实现对时间区间和紧凑空间区域的精准聚焦。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供