2 个月前

端到端运动表示学习用于视频理解

Lijie Fan; Wenbing Huang; Chuang Gan; Stefano Ermon; Boqing Gong; Junzhou Huang
端到端运动表示学习用于视频理解
摘要

尽管端到端学习表示近期取得了成功,但手工设计的光流特征在视频分析任务中仍被广泛使用。为填补这一空白,我们提出了一种新颖的端到端可训练神经网络——TVNet,用于从数据中学习类似光流的特征。TVNet 包含了一个特定的光流求解器,即 TV-L1 方法,并通过将其优化迭代过程展开为神经网络层进行初始化。因此,TVNet 可以直接使用而无需任何额外的学习。此外,它可以自然地与其他任务特定的网络连接,形成一个端到端的架构,从而避免了预计算和存储特征的需求,使我们的方法比当前多阶段方法更加高效。最后,通过端到端训练可以进一步微调 TVNet 的参数。这使得 TVNet 能够学习超出精确光流之外的更丰富和任务特定的模式。广泛的实验在两个动作识别基准数据集上验证了所提方法的有效性。我们的 TVNet 在准确性方面优于所有对比方法,同时在特征提取时间上也具有竞争力。注释:- 光流(optical flow):指图像序列中像素点的运动情况。- TV-L1 方法:Total Variation L1 (TV-L1) 方法是一种常用的光流求解算法。- 端到端(end-to-end):指从输入到输出整个过程由一个模型完成,中间没有人工干预或特征工程步骤。