
摘要
在视频目标检测(Video Object Detection, VID)中,一种常见的做法是利用视频中的丰富时间上下文来增强每一帧中的目标表示。现有的方法对从不同目标获得的时间上下文不做区分处理,忽略了它们的不同身份。而直观上,聚合同一目标在不同帧中的局部视图可能有助于更好地理解该目标。因此,在本文中,我们旨在使模型能够关注每个目标的身份一致性时间上下文,以获得更全面的目标表示,并处理诸如遮挡、运动模糊等快速变化的目标外观问题。然而,在现有VID模型基础上实现这一目标面临低效率的问题,主要是由于这些模型存在冗余区域提议和非并行的逐帧预测方式。为了解决这一问题,我们提出了ClipVID,这是一种配备了身份一致性聚合(Identity-Consistent Aggregation, ICA)层的VID模型,专门用于挖掘细粒度且身份一致的时间上下文。通过集合预测策略有效减少了冗余,使得ICA层非常高效,并进一步允许我们设计一个架构,实现对整个视频片段的并行剪辑预测。大量的实验结果证明了我们方法的优势:在ImageNet VID数据集上达到了最先进的性能(84.7% mAP),同时运行速度比之前的最先进方法快约7倍(39.3 fps)。