17 天前

对象区域视频变换器

Roei Herzig, Elad Ben-Avraham, Karttikeya Mangalam, Amir Bar, Gal Chechik, Anna Rohrbach, Trevor Darrell, Amir Globerson
对象区域视频变换器
摘要

近期,视频变换器(video transformers)在视频理解任务中取得了显著成功,其性能已超越传统卷积神经网络(CNN);然而,现有的视频变换器模型并未显式建模物体,尽管物体在动作识别中可能具有关键作用。为此,本文提出一种面向物体的视频变换器(Object-Region Video Transformers, ORViT),这是一种以物体为中心(object-centric)的方法,通过在视频变换器层中引入一个直接融合物体表征的模块,实现对物体信息的显式建模。该方法的核心思想是从网络早期层开始融合以物体为中心的表征,并将其传播至整个变换器结构,从而在全网络范围内影响时空特征的生成。ORViT模块包含两条物体级别的信息流:外观流(appearance stream)与动态流(dynamics stream)。在外观流中,我们设计了“物体区域注意力”(Object-Region Attention)模块,该模块在图像块(patches)和物体区域上执行自注意力机制,使视觉物体区域与均匀分布的图像块令牌(patch tokens)进行交互,从而为后者注入具有上下文感知能力的物体信息。此外,我们通过独立的“物体动态模块”(Object-Dynamics Module)建模物体的运动动态,捕捉物体轨迹间的交互关系,并展示了如何将两条流的信息有效融合。我们在四个任务和五个数据集上对模型进行了评估:在SomethingElse数据集上进行组合式动作识别与少样本动作识别,在AVA数据集上进行时空动作检测,在Something-Something V2、Diving48和Epic-Kitchen100数据集上进行标准动作识别。实验结果表明,ORViT在所有任务和数据集上均取得了显著的性能提升,充分证明了在变换器架构中引入物体表征的有效性与价值。项目代码与预训练模型请访问项目主页:https://roeiherz.github.io/ORViT/