HyperAIHyperAI

Command Palette

Search for a command to run...

VidTr:无卷积的视频Transformer

Yanyi Zhang Xinyu Li Chunhui Liu Bing Shuai Yi Zhu Biagio Brattoli Hao Chen Ivan Marsic Joseph Tighe

摘要

我们提出了一种基于分离注意力机制的视频变换器(Video Transformer,简称 VidTr),用于视频分类任务。与常用的3D卷积网络相比,VidTr 通过堆叠的注意力机制有效聚合时空信息,在保持更高性能的同时展现出更强的计算效率。首先,我们介绍了原始的视频变换器模型,并验证了变换器模块能够直接从原始像素中实现时空建模,但其内存开销较大。随后,我们提出 VidTr 模型,在维持相同性能的前提下,将内存消耗降低了 3.3 倍。为进一步优化模型,我们引入了一种基于标准差的 topK 注意力池化方法(pooltopKstdpool_{topK_std}pooltopKstd),通过在时间维度上剔除冗余信息特征,显著降低计算量。在五个常用视频数据集上,VidTr 均取得了当前最优的性能表现,且所需的计算资源更低,充分验证了所提设计在效率与有效性方面的优势。最后,通过误差分析与可视化结果表明,VidTr 在需要长期时序推理的动作预测任务中表现尤为出色。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VidTr:无卷积的视频Transformer | 论文 | HyperAI超神经