
摘要
通过一次仅持续几分之一秒的眼动固定,人类视觉系统能够形成对复杂环境的丰富表征,达到一种整体性的理解,从而促进物体识别和检测。这种现象被称为识别场景的“概要”(gist),其完成依赖于相关的先验知识。本文探讨了类似的问题,即在计算机视觉系统中使用记忆不仅能否提高视频流中物体检测的准确性,还能否减少计算时间。通过将传统的特征提取器与极其轻量级的特征提取器交替使用,后者只需识别场景的“概要”,我们证明了当存在时间记忆时,最少的计算即可产生准确的检测结果。此外,我们还证明了记忆中包含足够的信息,可以部署强化学习算法来学习自适应推理策略。我们的模型在 Imagenet VID 2015 数据集上达到了移动方法中的最先进性能,并且在 Pixel 3 手机上运行速度可达每秒 70 帧以上。