2 个月前

双重查询:用于视频摘要的双混合注意力元学习方法

Junyan Wang; Yang Bai; Yang Long; Bingzhang Hu; Zhenhua Chai; Yu Guan; Xiaolin Wei
双重查询:用于视频摘要的双混合注意力元学习方法
摘要

视频摘要的目标是从视频中选择具有代表性的帧以保留高层次的信息,这通常通过使用softmax函数预测段落的重要性分数来实现。然而,softmax函数在处理复杂视觉或序列信息时难以保留高阶表示,这一问题被称为“softmax瓶颈”(Softmax Bottleneck)。本文提出了一种新的框架,即带有元学习的双混合注意力(Dual Mixture Attention, DMASum)模型,旨在解决softmax瓶颈问题。该模型中的混合注意力层(Mixture of Attention, MoA)通过两次自查询注意力机制有效提升了模型容量,不仅捕捉了初始查询-键注意力,还能捕捉到二阶变化。此外,引入了一种新颖的单帧元学习规则,以在训练数据有限的小型数据集上实现更好的泛化能力。DMASum模型还显著利用了视觉和序列注意力机制,以累积的方式连接局部关键帧和全局注意力。我们在两个公开数据集SumMe和TVSum上采用了新的评估协议。定性和定量实验均表明,该方法在现有最先进方法的基础上取得了显著改进。

双重查询:用于视频摘要的双混合注意力元学习方法 | 最新论文 | HyperAI超神经