2 个月前

选择性结构状态空间在长视频理解中的应用

Jue Wang; Wentao Zhu; Pichao Wang; Xiang Yu; Linda Liu; Mohamed Omar; Raffay Hamid
选择性结构状态空间在长视频理解中的应用
摘要

在长视频中有效建模复杂的时空依赖关系仍然是一个未解决的问题。最近提出的具有线性复杂度的结构化状态空间序列(S4)模型为这一领域提供了有前景的方向。然而,我们发现S4模型将所有图像标记视为同等重要,这可能对其效率和准确性产生不利影响。为了解决这一局限性,我们提出了一种新颖的选择性S4(即S5)模型,该模型通过轻量级的掩码生成器自适应地选择信息丰富的图像标记,从而更高效和准确地建模长视频中的长期时空依赖关系。与之前在变压器中使用的基于掩码的标记减少方法不同,我们的S5模型利用动量更新的S4模型的指导,避免了密集的自注意力计算。这使得我们的模型能够有效地丢弃信息较少的标记,并更好地适应各种长视频理解任务。然而,与大多数标记减少方法一样,信息丰富的图像标记可能会被错误地丢弃。为了提高模型的鲁棒性和时间范围,我们提出了一种新的长短掩码对比学习(LSMCL)方法,使我们的模型能够使用较短的输入视频预测更长时间段的情境。我们在三个具有挑战性的长视频理解数据集(LVU、COIN和Breakfast)上进行了广泛的比较实验,结果表明我们的方法在准确性方面比之前的最先进S4模型最高提高了9.6%,同时将其内存占用减少了23%。