2 个月前

ECO:用于在线视频理解的高效卷积网络

Mohammadreza Zolfaghari; Kamaljeet Singh; Thomas Brox
ECO:用于在线视频理解的高效卷积网络
摘要

当前视频理解领域的最先进技术存在两个问题:(1) 视频中的大部分推理是在局部进行的,因此错过了跨越数秒的动作之间的关键关系。(2) 尽管有一些局部方法可以快速处理每一帧,但整个视频的处理效率不高,阻碍了快速视频检索或长时间活动的在线分类。在本文中,我们介绍了一种网络架构,该架构不仅考虑了长期内容,还同时实现了每段视频的快速处理。这种架构基于在网络内部合并长期内容,而不是事后融合。结合一种利用相邻帧之间高度冗余性的采样策略,这种方法能够在每秒处理多达230段视频时提供高质量的动作分类和视频字幕生成,而每段视频可能包含几百帧。该方法在所有数据集上均达到了具有竞争力的性能,同时比现有最先进方法快10到80倍。