17 天前

CT-Net:用于视频分类的通道张量化网络

Kunchang Li, Xianhang Li, Yali Wang, Jun Wang, Yu Qiao
CT-Net:用于视频分类的通道张量化网络
摘要

三维卷积在视频分类任务中具有强大的表达能力,但通常计算开销较大。近年来的研究主要集中在对时空维度和/或通道维度进行卷积分解。然而,大多数现有方法难以在卷积效率与特征交互充分性之间取得理想平衡。为此,我们提出了一种简洁而新颖的通道张量化网络(Channel Tensorization Network, CT-Net),其核心思想是将输入特征的通道维度建模为K个子维度的乘积形式。一方面,该设计天然实现了多维度的卷积分解,显著降低了计算负担;另一方面,能够有效增强不同通道间的特征交互,并逐步扩展此类交互的三维感受野,从而提升分类精度。此外,我们在CT-模块中引入了张量激励(Tensor Excitation, TE)机制,该机制能够以高维方式学习空间、时间与通道注意力,从而增强CT-模块中所有特征维度之间的协同能力。最后,我们灵活地将ResNet架构与CT-Net相结合。在多个具有挑战性的视频基准数据集上(如Kinetics-400、Something-Something V1和V2)进行了大量实验,结果表明,我们的CT-Net在分类准确率和/或计算效率方面均优于多项近期的先进方法(SOTA)。代码与模型将公开于:https://github.com/Andy1621/CT-Net。