15 天前

时间感知的大核卷积

Vasileios Lioutas, Yuhong Guo
时间感知的大核卷积
摘要

迄今为止,大多数最先进的序列建模架构均采用注意力机制来构建基于语言任务的生成模型。其中一些模型利用全部可用的序列标记来生成注意力分布,导致时间复杂度高达 $O(n^2)$。另一些方法则采用深度可分离卷积,并结合大小为 $k$ 的 softmax 归一化卷积核,作为有限窗口的自注意力机制,其时间复杂度为 $O(k \cdot n)$。本文提出了一种新型自适应卷积操作——时间感知大核卷积(Time-aware Large Kernel, TaLK)卷积,该方法能够学习预测求和核的大小,而非使用固定尺寸的核矩阵。这一设计使得模型的时间复杂度降低至 $O(n)$,从而实现序列编码过程与标记数量呈线性关系。我们在大规模标准机器翻译、抽象摘要生成和语言建模数据集上对所提方法进行了评估,结果表明,TaLK 卷积在效率上显著优于其他基于注意力或卷积的现有方法,是一种高效且具有竞争力的改进方案。

时间感知的大核卷积 | 最新论文 | HyperAI超神经