HyperAI超神经

摘要

本文提出了VTN（Video Transformer Network），一种基于Transformer架构的视频识别框架。受视觉Transformer近期发展的启发，我们摒弃了传统视频动作识别中依赖3D卷积网络（3D ConvNets）的标准方法，提出了一种通过关注整个视频序列信息来实现动作分类的新方法。该方法具有通用性，可基于任意给定的2D空间主干网络构建。在实际运行时间方面，VTN的训练速度比其他先进方法快16.1倍，推理速度也快5.1倍，同时保持了具有竞争力的识别精度。该方法仅需一次端到端的前向传播即可完成整段视频的分析，且计算量仅需1.5倍更少的GFLOPs。我们在Kinetics-400数据集上取得了具有竞争力的实验结果，并对VTN的关键特性进行了消融研究，深入分析了精度与推理速度之间的权衡关系。我们期望本方法能成为视频识别领域的新基准，并推动该方向开启一条全新的研究路径。代码与模型已开源，详见：https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md

摘要

Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann

摘要

用 AI 构建 AI

HyperAI Newsletters

Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann

摘要

用 AI 构建 AI

HyperAI Newsletters

Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视频Transformer网络

Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视频Transformer网络

Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视频Transformer网络

Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann

摘要

用 AI 构建 AI

HyperAI Newsletters