2 个月前

用于高效视频分类的多样化时间聚合和深度空间时间分解

Lee, Youngwan ; Kim, Hyung-Il ; Yun, Kimin ; Moon, Jinyoung
用于高效视频分类的多样化时间聚合和深度空间时间分解
摘要

近期备受关注的视频分类研究领域集中在时间建模和高效的三维架构上。然而,现有的时间建模方法效率不高,而高效的三维架构则较少关注时间建模。为了弥合这一差距,我们提出了一种高效的时间建模三维架构,称为VoV3D,该架构由一个时间单次聚合(T-OSA)模块和深度分解组件D(2+1)D组成。T-OSA模块旨在通过不同时间感受野的时间特征聚合来构建特征层次结构。堆叠T-OSA模块使得网络本身能够在无需外部模块的情况下,对帧间短程和长程时间关系进行建模。受内核分解和通道分解的启发,我们还设计了一个深度时空分解模块,命名为D(2+1)D,该模块将三维深度卷积分解为两个空间和时间深度卷积,以使我们的网络更加轻量级和高效。通过使用所提出的时序建模方法(T-OSA)和高效的分解组件(D(2+1)D),我们构建了两种类型的VoV3D网络:VoV3D-M和VoV3D-L。得益于其在时序建模方面的高效性和有效性,VoV3D-L在模型参数数量上减少了6倍,在计算量上减少了16倍,并且在Something-Something和Kinetics-400数据集上的表现超过了最先进的时序建模方法。此外,与具有相似模型容量的最先进高效三维架构X3D相比,VoV3D展示了更强的时间建模能力。我们希望VoV3D能够成为高效视频分类的一个基准模型。