2 个月前

用于动作分割的深度可分离时序卷积网络

{Heiko Neumann, Wolfgang Mader, Christian Jarvers, Basavaraj Hampiholi}

摘要

在长时、未修剪的RGB视频中实现细粒度的时间动作分割，是视觉人机交互领域的一个关键研究课题。近年来，基于时间卷积的方法通常采用编码器-解码器（Encoder-Decoder, ED）架构，或在连续卷积层中使用倍增扩张因子（dilation with doubling factor）来实现视频动作分割。然而，ED网络通常在较低的时间分辨率下运行，而连续层中的扩张操作则容易引发网格伪影（gridding artifacts）问题。为此，本文提出一种深度可分离时间卷积网络（Depthwise Separable Temporal Convolution Network, DS-TCN），该网络在全时间分辨率下运行，并显著降低了网格伪影效应。DS-TCN的核心组件为残差深度可分离扩张块（Residual Depthwise Dilated Block, RDDB）。通过RDDB，我们系统探索了大卷积核与小扩张率之间的权衡关系。实验结果表明，DS-TCN能够高效捕捉长期时序依赖关系以及局部时间特征。在GTEA、50Salads和Breakfast三个基准数据集上的评估显示，尽管参数量相对较少，DS-TCN仍显著优于现有的ED-TCN及基于扩张卷积的TCN基线方法。