8 个月前

摘要

三维卷积神经网络（3D CNNs）一直是视频识别任务中的主流方法。为捕捉时序信息，3D卷积需沿时间序列方向进行计算，导致计算量呈立方级增长，开销高昂。为降低计算成本，以往方法通常依赖人工设计的3D/2D CNN结构并引入近似处理，或采用自动搜索策略，但这些方法往往牺牲了模型的表达能力，或导致训练过程耗时过长。在本工作中，我们提出一种面向3D CNN的新型无训练神经架构搜索方法，旨在自动设计高效且具强表达能力的3D CNN架构，同时充分考虑模型复杂度。为高效评估3D CNN的表达能力，我们将3D CNN建模为一个信息系系统，并基于最大熵原理推导出一种解析式的熵得分（entropy score）。具体而言，我们提出一种时空熵得分（Spatio-Temporal Entropy Score, STEntr-Score），并引入修正因子，以应对空间与时间维度间视觉信息分布的差异性。该方法通过动态利用特征图尺寸与卷积核尺寸在深度方向上的相关性，实现对时空信息的自适应建模。在此基础上，可在给定计算预算约束下，通过进化算法最大化STEntr-Score，无需训练网络参数，即可高效搜索出兼具高效率与强表达能力的3D CNN架构——即基于熵的3D CNN（E3D系列）。在Something-Something V1&V2与Kinetics400等多个基准数据集上的大量实验表明，E3D系列模型在保持更高计算效率的同时，达到了当前最优的性能表现。相关代码已开源，地址为：https://github.com/alibaba/lightweight-neural-architecture-search。

源 PDF