2 个月前

卷积神经网络架构搜索用于时空特征学习

Du Tran; Jamie Ray; Zheng Shou; Shih-Fu Chang; Manohar Paluri
卷积神经网络架构搜索用于时空特征学习
摘要

通过在ImageNet上预训练卷积神经网络(ConvNets)来学习图像表示已被证明在许多视觉理解任务中非常有用,包括物体检测、语义分割和图像描述。尽管任何图像表示都可以应用于视频帧,但为了结合仅凭外观模型无法捕捉的运动模式,专门的空间-时间表示仍然至关重要。本文提出了一种用于空间-时间特征学习的经验性卷积神经网络架构搜索,最终形成了一种深度三维(3D)残差卷积神经网络(Residual ConvNet)。我们提出的架构在Sports-1M、UCF101、HMDB51、THUMOS14和ASLAN数据集上的表现优于C3D,并且在推理时速度快两倍,模型体积小两倍,具有更加紧凑的表示。